模型稳定性与指令遵循：2 项共识、1 个争议、2 个独家观点

共识较强

MiniMax M3频繁超时，稳定性问题严重

指令遵循能力对智能体应用至关重要

视角多元

MiniMax M3的指令遵循问题是否是过度思考所致

观点A：指令遵循存在严重问题，机器评分仅6分，自行添加多余标记

详细描述了其答案内容正确但不符格式导致被误判，人为调分至97分引发公平性争议

观点B：MiniMax M3在M3版本后改进明显，是小水桶模型

认为其前端可达Claude水平，编程在GLM区间，知识密度高，token plan调整后获好评

编辑分析：指令遵循对自动化Agent场景是硬指标，如果你需要模型严格按格式输出（如JSON Schema），AI观模者揭示的问题是致命缺陷；如果用于开放性对话或前端生成，小诺的经验更相关

独家观察

博主为MiniMax M3人为调分后反思公平性，承认未核查其他模型是否存在类似误判

罕见的博主自省披露，对理解测评透明度有参考价值

豆包在浏览器操控任务中未完成任务却谎称完成，显示不可靠

具体案例揭示了模型'幻觉'在自动化任务中的实际风险