本次横评共覆盖12款模型,实际为约8款大模型,使用BenchLogo工具进行八大核心能力155项测试,满分800分。
博主介绍测评的基础框架和工具,属于事实陈述。
命令行测试是所有测试中最难的一项,目前没有任何模型拿过满分,超过90分非常罕见,80分以上就算高分。
博主描述该测试的难度级别,基于其观察给出的判断。
BenchLogo的测试成绩具有可复现性,多数题目第一次答不对则第二次也答不对。
博主认同该测评工具的设计,认为其排除了偶然性,但承认个别题目存在波动。
大模型测评类似盲人摸象,任何单一测试都无法全面揭示模型的所有能力。
博主评价当前大模型测评的局限性,属于客观观点。
在工具调用能力测试中,DeepSeek V3 Pro、千问3.7 Plus、千问3.7 Max、GLM 5.1以及千问开源27B模型均得满分,而腾讯混元3得分明显落后。
博主批评腾讯混元3表现差,与其他模型对比鲜明。
命令行测试中,DeepSeek V4 Pro以80分位居第一,V4 Flash以77分位居第二,腾讯混元3排名倒数第一,Kimi K2.6排名倒数第二。
给出具体分数和排名,为事实性结果陈述。
Bug修复测试中,DeepSeek V4 Flash、MiniMax M3、Kimi K2.6和千问开源27B(Copas)均获得满分,而DeepSeek V4 Pro未获满分。
列出该测试项的满分模型,同时指出V4 Pro未满分的情况,属于客观记录。
复杂指令遵循测试整体难度不高,DeepSeek V4 Pro得满分,其余模型大多在90分以上,最差的混元3也有92分。
博主认为该项测试难以拉开差距,给出分数分布。
Hermes Agent测试中,V4 Flash以95分最高,千问3.7 Max 94分,第一梯队还包括千问3.7 Plus、MiMo V2.5 Pro、V4 Pro和GLM 5.1,而Kimi K2.6和混元3成绩较差。
提供该测试项的排名和分数,明确第一梯队与落后模型。
结构化输出测试中,千问3.7 Plus、GLM 5.1得满分,千问3.7 Max得99分,但MiniMax M3得分非常低,博主怀疑其问题类似指令遵循中的过度思考。
博主指出MiniMax M3在该项测试的表现严重异常,并分析可能原因。
数学推理测试中,MiMo V2.5以89分最高,千问3.7 Max和V4 Pro等在80分以上,MiniMax M3得分最低。
列出数学推理测试的排名,MiniMax M3再次垫底。
非结构化数据提取测试中,MiniMax M3获得第一名,GLM 5.1、千问3.7 Max和V4 Pro紧随其后。
该项MiniMax M3表现出色,博主持事实性统计。
总分排名前三依次为千问3.7 Max(738分)、DeepSeek V4 Pro(731分)和千问3.7 Plus(730分),这三款属于国产大模型第一梯队,彼此差距不大。
博主肯定这三款模型的整体性能,并给出具体总分。
总分第四、第五分别为GLM 5.1(724分)和MiMo V2.5 Pro(723分),性能与第一梯队差距不大。
博主认可这两款模型的表现,并给出具体分数。
千问3.7 Max和Plus因刚刚发布而沾光,DeepSeek V4 Pro已发布一个月且暂无大的代际更新,因此排名可理解。
博主解释排名受发布时间影响,属客观分析。
智谱GLM 5.1套餐需要抢购,从侧面说明其性能有真实力。
博主用市场现象佐证GLM 5.1的实力。
小米MiMo V2.5 Pro性能与DeepSeek V4系列差不多,但token消耗极快,之前赠送的2亿token三四天就用光。
博主指出其性能不错但存在严重的消耗问题。
本地部署的千问开源27B稠密小模型(蒸馏自Claude Opus)是“小钢炮”,在工具调用等测试中强于MiMo V2.5。
博主推荐本地部署该模型,并认为其性能出色。
在代码能力上,博主主观认为千问3.7 Max、DeepSeek V4 Pro、千问3.7 Plus和GLM 5.1是国产最强。
博主说明代码能力难以客观测试,但给出个人判断。
MiniMax M3和Kimi K2.6在测试中频繁超时,多项测试在规定的5分钟内未完成,导致被判答错。
博主批评两款模型的稳定性,称测试过程非常折磨。
MiniMax M3在指令遵循测试中的原始机器评分仅6分(满分100),原因是答案内容正确但添加了多余标记,不符合严格格式约束。
博主详细描述问题,认为其没有严格遵循指令,但事后人为调整为97分以反映人类评判。
博主为MiniMax M3人为调整指令遵循分数至97分,可能对其他模型不公平,因为未核查其他模型是否存在类似被误判的情况。
博主自省调整分数的公平性问题,属于透明的说明。
腾讯混元3(混元Pro)在多项测试中表现极差,甚至不如千问开源27B小模型,博主批评腾讯应加大投入提升大模型能力。
博主反复批评腾讯混元3,并质疑其存在的意义。
博主将国产模型划分为航、顶级、人上人、NPC、纳星纳地、拉六个等级,千问3.7两款和DeepSeek V4 Pro为航级,MiMo V2.5为NPC级,MiniMax M3和Kimi K2.6为纳星纳地,腾讯混元为拉级。
博主给出个人分级体系,包含明确的价值判断。
Bug修复测试中第3题和第10题实际没有bug,但会故意告诉模型有bug,以测试模型是否会陷入陷阱。
描述测试中设置的陷阱,属于事实性说明。
指令遵循能力对智能体应用非常重要,如果模型自行添加理解,会导致任务执行走样;有些本地小模型反而表现更好。
博主强调严格遵循指令在智能体调用中的重要性,并观察到一个反常现象。