测评方法：2 项共识、1 个争议、2 个独家观点

共识较强

大模型横评具有局限性，单一测试无法全面反映模型能力

测试应贴近实际使用场景而非仅看跑分

视角多元

客观跑分测评 vs 主观体验测评哪个更有参考价值

观点A：偏重客观测评工具与量化分数

使用BenchLogo工具进行155项测试，给出800分制量化排名，强调可复现性

观点B：偏重实际任务体验而非跑分

明确表示'不看跑分直接上任务'，用日常场景如租房、份子钱、洗稿等贴近用户的测试

编辑分析：如果你关注编程/Agent等专业能力，参考AI观模者的量化排名；如果你关心日常对话、文案等C端体验，AI山竹菌和新昼的场景测试更有参考价值

独家观察

BenchLogo测试中命令行是最难项，从未有模型满分，90分以上罕见

提供了关于特定测试维度难度量化的独家经验数据

Bug修复测试中故意设置无bug题目作为陷阱测试模型判断力

揭露了测试设计的反直觉细节，对理解模型'诚实度'有启发