MiniMax-M3拉中拉！国产大模型DeepSeek/Qwen/Kimi/MiniMax横评 — AI观模者 | 国产大模型横评

中立

编程/代码能力

本次横评共覆盖12款模型，实际为约8款大模型，使用BenchLogo工具进行八大核心能力155项测试，满分800分。

博主介绍测评的基础框架和工具，属于事实陈述。

中立

编程/代码能力

命令行测试是所有测试中最难的一项，目前没有任何模型拿过满分，超过90分非常罕见，80分以上就算高分。

博主描述该测试的难度级别，基于其观察给出的判断。

认同

编程/代码能力

BenchLogo的测试成绩具有可复现性，多数题目第一次答不对则第二次也答不对。

博主认同该测评工具的设计，认为其排除了偶然性，但承认个别题目存在波动。

中立

编程/代码能力

大模型测评类似盲人摸象，任何单一测试都无法全面揭示模型的所有能力。

博主评价当前大模型测评的局限性，属于客观观点。

不认同

编程/代码能力

在工具调用能力测试中，DeepSeek V3 Pro、千问3.7 Plus、千问3.7 Max、GLM 5.1以及千问开源27B模型均得满分，而腾讯混元3得分明显落后。

博主批评腾讯混元3表现差，与其他模型对比鲜明。

中立

编程/代码能力

命令行测试中，DeepSeek V4 Pro以80分位居第一，V4 Flash以77分位居第二，腾讯混元3排名倒数第一，Kimi K2.6排名倒数第二。

给出具体分数和排名，为事实性结果陈述。

中立

编程/代码能力

Bug修复测试中，DeepSeek V4 Flash、MiniMax M3、Kimi K2.6和千问开源27B（Copas）均获得满分，而DeepSeek V4 Pro未获满分。

列出该测试项的满分模型，同时指出V4 Pro未满分的情况，属于客观记录。

中立

编程/代码能力

复杂指令遵循测试整体难度不高，DeepSeek V4 Pro得满分，其余模型大多在90分以上，最差的混元3也有92分。

博主认为该项测试难以拉开差距，给出分数分布。

中立

编程/代码能力

Hermes Agent测试中，V4 Flash以95分最高，千问3.7 Max 94分，第一梯队还包括千问3.7 Plus、MiMo V2.5 Pro、V4 Pro和GLM 5.1，而Kimi K2.6和混元3成绩较差。

提供该测试项的排名和分数，明确第一梯队与落后模型。

不认同

编程/代码能力

结构化输出测试中，千问3.7 Plus、GLM 5.1得满分，千问3.7 Max得99分，但MiniMax M3得分非常低，博主怀疑其问题类似指令遵循中的过度思考。

博主指出MiniMax M3在该项测试的表现严重异常，并分析可能原因。

中立

编程/代码能力

数学推理测试中，MiMo V2.5以89分最高，千问3.7 Max和V4 Pro等在80分以上，MiniMax M3得分最低。

列出数学推理测试的排名，MiniMax M3再次垫底。

中立

编程/代码能力

非结构化数据提取测试中，MiniMax M3获得第一名，GLM 5.1、千问3.7 Max和V4 Pro紧随其后。

该项MiniMax M3表现出色，博主持事实性统计。

认同

编程/代码能力

总分排名前三依次为千问3.7 Max（738分）、DeepSeek V4 Pro（731分）和千问3.7 Plus（730分），这三款属于国产大模型第一梯队，彼此差距不大。

博主肯定这三款模型的整体性能，并给出具体总分。

认同

编程/代码能力

总分第四、第五分别为GLM 5.1（724分）和MiMo V2.5 Pro（723分），性能与第一梯队差距不大。

博主认可这两款模型的表现，并给出具体分数。

中立

编程/代码能力

千问3.7 Max和Plus因刚刚发布而沾光，DeepSeek V4 Pro已发布一个月且暂无大的代际更新，因此排名可理解。

博主解释排名受发布时间影响，属客观分析。

认同

编程/代码能力

智谱GLM 5.1套餐需要抢购，从侧面说明其性能有真实力。

博主用市场现象佐证GLM 5.1的实力。

中立

编程/代码能力

小米MiMo V2.5 Pro性能与DeepSeek V4系列差不多，但token消耗极快，之前赠送的2亿token三四天就用光。

博主指出其性能不错但存在严重的消耗问题。

认同

编程/代码能力

本地部署的千问开源27B稠密小模型（蒸馏自Claude Opus）是“小钢炮”，在工具调用等测试中强于MiMo V2.5。

博主推荐本地部署该模型，并认为其性能出色。

认同

编程/代码能力

在代码能力上，博主主观认为千问3.7 Max、DeepSeek V4 Pro、千问3.7 Plus和GLM 5.1是国产最强。

博主说明代码能力难以客观测试，但给出个人判断。

不认同

编程/代码能力

MiniMax M3和Kimi K2.6在测试中频繁超时，多项测试在规定的5分钟内未完成，导致被判答错。

博主批评两款模型的稳定性，称测试过程非常折磨。

不认同

编程/代码能力

MiniMax M3在指令遵循测试中的原始机器评分仅6分（满分100），原因是答案内容正确但添加了多余标记，不符合严格格式约束。

博主详细描述问题，认为其没有严格遵循指令，但事后人为调整为97分以反映人类评判。

中立

编程/代码能力

博主为MiniMax M3人为调整指令遵循分数至97分，可能对其他模型不公平，因为未核查其他模型是否存在类似被误判的情况。

博主自省调整分数的公平性问题，属于透明的说明。

不认同

编程/代码能力

腾讯混元3（混元Pro）在多项测试中表现极差，甚至不如千问开源27B小模型，博主批评腾讯应加大投入提升大模型能力。

博主反复批评腾讯混元3，并质疑其存在的意义。

中立

编程/代码能力

博主将国产模型划分为航、顶级、人上人、NPC、纳星纳地、拉六个等级，千问3.7两款和DeepSeek V4 Pro为航级，MiMo V2.5为NPC级，MiniMax M3和Kimi K2.6为纳星纳地，腾讯混元为拉级。

博主给出个人分级体系，包含明确的价值判断。

中立

编程/代码能力

Bug修复测试中第3题和第10题实际没有bug，但会故意告诉模型有bug，以测试模型是否会陷入陷阱。

描述测试中设置的陷阱，属于事实性说明。

认同

编程/代码能力

指令遵循能力对智能体应用非常重要，如果模型自行添加理解，会导致任务执行走样；有些本地小模型反而表现更好。

博主强调严格遵循指令在智能体调用中的重要性，并观察到一个反常现象。