VideoStance
全部话题
全部视频
← 全部话题
AI观模者
1 个话题
1 个视频
26 条观点
认同 7
不认同 5
中立 14
国产大模型横评
参与共识
大模型横评具有局限性,单一测试无法全面反映模型能力
国产大模型横评 · 测评方法
测试应贴近实际使用场景而非仅看跑分
国产大模型横评 · 测评方法
千问3.7 Max是当前国产编程能力最强的模型之一
国产大模型横评 · 编程/代码能力
智谱GLM 5.1/5.2在国产模型中编程能力突出,逼近Claude
国产大模型横评 · 编程/代码能力
腾讯混元/元宝代码与开发能力差,多项测试垫底
国产大模型横评 · 编程/代码能力
DeepSeek V4 Pro编程能力与第一梯队接近,性价比极高
国产大模型横评 · 编程/代码能力
MiniMax M3频繁超时,稳定性问题严重
国产大模型横评 · 模型稳定性与指令遵循
指令遵循能力对智能体应用至关重要
国产大模型横评 · 模型稳定性与指令遵循
小米MiMo V2.5存在token消耗过快问题
国产大模型横评 · 价格与性价比
腾讯混元/元宝在大模型评测中整体表现差,多项垫底
国产大模型横评 · 局部模型/特定场景评价
千问开源小模型(如27B)表现优秀,适合本地部署
国产大模型横评 · 局部模型/特定场景评价
千问3.7 Max、DeepSeek V4 Pro处于国产第一梯队
国产大模型横评 · 分级/排名体系
GLM 5.1/5.2处于国产第一梯队或接近第一梯队
国产大模型横评 · 分级/排名体系
各模型各有所长,不存在全面领先的产品
国产大模型横评 · 市场定位与历史贡献
国产大模型横评
查看完整分析 →
中立
编程/代码能力
本次横评共覆盖12款模型,实际为约8款大模型,使用BenchLogo工具进行八大核心能力155项测试,满分800分。
博主介绍测评的基础框架和工具,属于事实陈述。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
命令行测试是所有测试中最难的一项,目前没有任何模型拿过满分,超过90分非常罕见,80分以上就算高分。
博主描述该测试的难度级别,基于其观察给出的判断。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
BenchLogo的测试成绩具有可复现性,多数题目第一次答不对则第二次也答不对。
博主认同该测评工具的设计,认为其排除了偶然性,但承认个别题目存在波动。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
大模型测评类似盲人摸象,任何单一测试都无法全面揭示模型的所有能力。
博主评价当前大模型测评的局限性,属于客观观点。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
不认同
编程/代码能力
在工具调用能力测试中,DeepSeek V3 Pro、千问3.7 Plus、千问3.7 Max、GLM 5.1以及千问开源27B模型均得满分,而腾讯混元3得分明显落后。
博主批评腾讯混元3表现差,与其他模型对比鲜明。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
命令行测试中,DeepSeek V4 Pro以80分位居第一,V4 Flash以77分位居第二,腾讯混元3排名倒数第一,Kimi K2.6排名倒数第二。
给出具体分数和排名,为事实性结果陈述。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
Bug修复测试中,DeepSeek V4 Flash、MiniMax M3、Kimi K2.6和千问开源27B(Copas)均获得满分,而DeepSeek V4 Pro未获满分。
列出该测试项的满分模型,同时指出V4 Pro未满分的情况,属于客观记录。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
复杂指令遵循测试整体难度不高,DeepSeek V4 Pro得满分,其余模型大多在90分以上,最差的混元3也有92分。
博主认为该项测试难以拉开差距,给出分数分布。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
Hermes Agent测试中,V4 Flash以95分最高,千问3.7 Max 94分,第一梯队还包括千问3.7 Plus、MiMo V2.5 Pro、V4 Pro和GLM 5.1,而Kimi K2.6和混元3成绩较差。
提供该测试项的排名和分数,明确第一梯队与落后模型。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
不认同
编程/代码能力
结构化输出测试中,千问3.7 Plus、GLM 5.1得满分,千问3.7 Max得99分,但MiniMax M3得分非常低,博主怀疑其问题类似指令遵循中的过度思考。
博主指出MiniMax M3在该项测试的表现严重异常,并分析可能原因。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
数学推理测试中,MiMo V2.5以89分最高,千问3.7 Max和V4 Pro等在80分以上,MiniMax M3得分最低。
列出数学推理测试的排名,MiniMax M3再次垫底。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
非结构化数据提取测试中,MiniMax M3获得第一名,GLM 5.1、千问3.7 Max和V4 Pro紧随其后。
该项MiniMax M3表现出色,博主持事实性统计。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
总分排名前三依次为千问3.7 Max(738分)、DeepSeek V4 Pro(731分)和千问3.7 Plus(730分),这三款属于国产大模型第一梯队,彼此差距不大。
博主肯定这三款模型的整体性能,并给出具体总分。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
总分第四、第五分别为GLM 5.1(724分)和MiMo V2.5 Pro(723分),性能与第一梯队差距不大。
博主认可这两款模型的表现,并给出具体分数。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
千问3.7 Max和Plus因刚刚发布而沾光,DeepSeek V4 Pro已发布一个月且暂无大的代际更新,因此排名可理解。
博主解释排名受发布时间影响,属客观分析。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
智谱GLM 5.1套餐需要抢购,从侧面说明其性能有真实力。
博主用市场现象佐证GLM 5.1的实力。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
小米MiMo V2.5 Pro性能与DeepSeek V4系列差不多,但token消耗极快,之前赠送的2亿token三四天就用光。
博主指出其性能不错但存在严重的消耗问题。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
本地部署的千问开源27B稠密小模型(蒸馏自Claude Opus)是“小钢炮”,在工具调用等测试中强于MiMo V2.5。
博主推荐本地部署该模型,并认为其性能出色。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
在代码能力上,博主主观认为千问3.7 Max、DeepSeek V4 Pro、千问3.7 Plus和GLM 5.1是国产最强。
博主说明代码能力难以客观测试,但给出个人判断。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
不认同
编程/代码能力
MiniMax M3和Kimi K2.6在测试中频繁超时,多项测试在规定的5分钟内未完成,导致被判答错。
博主批评两款模型的稳定性,称测试过程非常折磨。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
不认同
编程/代码能力
MiniMax M3在指令遵循测试中的原始机器评分仅6分(满分100),原因是答案内容正确但添加了多余标记,不符合严格格式约束。
博主详细描述问题,认为其没有严格遵循指令,但事后人为调整为97分以反映人类评判。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
博主为MiniMax M3人为调整指令遵循分数至97分,可能对其他模型不公平,因为未核查其他模型是否存在类似被误判的情况。
博主自省调整分数的公平性问题,属于透明的说明。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
不认同
编程/代码能力
腾讯混元3(混元Pro)在多项测试中表现极差,甚至不如千问开源27B小模型,博主批评腾讯应加大投入提升大模型能力。
博主反复批评腾讯混元3,并质疑其存在的意义。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
博主将国产模型划分为航、顶级、人上人、NPC、纳星纳地、拉六个等级,千问3.7两款和DeepSeek V4 Pro为航级,MiMo V2.5为NPC级,MiniMax M3和Kimi K2.6为纳星纳地,腾讯混元为拉级。
博主给出个人分级体系,包含明确的价值判断。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
中立
编程/代码能力
Bug修复测试中第3题和第10题实际没有bug,但会故意告诉模型有bug,以测试模型是否会陷入陷阱。
描述测试中设置的陷阱,属于事实性说明。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评
认同
编程/代码能力
指令遵循能力对智能体应用非常重要,如果模型自行添加理解,会导致任务执行走样;有些本地小模型反而表现更好。
博主强调严格遵循指令在智能体调用中的重要性,并观察到一个反常现象。
来源:MiniMax-M3拉中拉!国产大模型DeepSeek/Qwen/Kimi/MiniMax横评