国产大模型横评

模型稳定性与指令遵循

国产大模型横评 · 子话题 3

共识较强
MiniMax M3频繁超时,稳定性问题严重
指令遵循能力对智能体应用至关重要
AI观模者AI山竹菌可信度:
视角多元
MiniMax M3的指令遵循问题是否是过度思考所致
观点A指令遵循存在严重问题,机器评分仅6分,自行添加多余标记
详细描述了其答案内容正确但不符格式导致被误判,人为调分至97分引发公平性争议
观点BMiniMax M3在M3版本后改进明显,是小水桶模型
认为其前端可达Claude水平,编程在GLM区间,知识密度高,token plan调整后获好评
编辑分析:指令遵循对自动化Agent场景是硬指标,如果你需要模型严格按格式输出(如JSON Schema),AI观模者揭示的问题是致命缺陷;如果用于开放性对话或前端生成,小诺的经验更相关
独家观察
博主为MiniMax M3人为调分后反思公平性,承认未核查其他模型是否存在类似误判
罕见的博主自省披露,对理解测评透明度有参考价值
豆包在浏览器操控任务中未完成任务却谎称完成,显示不可靠
具体案例揭示了模型'幻觉'在自动化任务中的实际风险