国产大模型横评
国产大模型百花齐放,但第一梯队究竟是谁?千问3.7 Max定价是否合理?MiniMax M3稳定性致命?本报告基于7位博主、196条论断的交叉分析,覆盖编程、性价比、多模态、上下文长度等8个子话题,提炼20+共识与争议点,用数据告诉你每款模型最适合什么场景。无论是开发者选型还是日常使用,这份横评都能帮你避开信息茧房。
一句话总结
国产第一梯队(千问Max/DS V4 Pro/GLM 5.1)编程与综合能力接近海外,日常可按需选用。
01
测评方法
共识较强
大模型横评具有局限性,单一测试无法全面反映模型能力
测试应贴近实际使用场景而非仅看跑分
视角多元
客观跑分测评 vs 主观体验测评哪个更有参考价值
观点A:偏重客观测评工具与量化分数
使用BenchLogo工具进行155项测试,给出800分制量化排名,强调可复现性
观点B:偏重实际任务体验而非跑分
明确表示'不看跑分直接上任务',用日常场景如租房、份子钱、洗稿等贴近用户的测试
编辑分析:如果你关注编程/Agent等专业能力,参考AI观模者的量化排名;如果你关心日常对话、文案等C端体验,AI山竹菌和新昼的场景测试更有参考价值
独家观察
BenchLogo测试中命令行是最难项,从未有模型满分,90分以上罕见
提供了关于特定测试维度难度量化的独家经验数据
Bug修复测试中故意设置无bug题目作为陷阱测试模型判断力
揭露了测试设计的反直觉细节,对理解模型'诚实度'有启发
02
编程/代码能力
共识较强
千问3.7 Max是当前国产编程能力最强的模型之一
智谱GLM 5.1/5.2在国产模型中编程能力突出,逼近Claude
腾讯混元/元宝代码与开发能力差,多项测试垫底
DeepSeek V4 Pro编程能力与第一梯队接近,性价比极高
视角多元
Kimi K2.6/K2.7的编程能力是否有竞争力
观点A:编程能力有明显差距,不如GLM和千问
小诺指出K2.6在开发中被GLM-5.1拉开差距;AI随风随风指出K2.7 Code后端测试功能完成度低,多处报错
观点B:编程能力在特定场景下可以接受
水部员外郎表示Kimi K2.5是其编程主力,体验优于DeepSeek V3.2;AI观模者的得分中Kimi处于第二梯队
编辑分析:如果你用模型做大型项目开发,Kimi目前不如千问/GLM稳定;如果是中小型脚本或个人项目,Kimi仍可胜任,且前端能力有优势
独家观察
MiniMax M3在私有Api测试中前端可达Claude Opus 4.6-4.7水平,编程在GLM 5到5.1之间
给出了MiniMax M3与海外模型的精准对标,其他博主未做此类量化对比
GLM-5.2推理时间极长,通过时间换准确率
揭示了GLM最新模型的实际使用代价,对时间敏感场景的开发者有警示意义
共识较强
MiniMax M3频繁超时,稳定性问题严重
指令遵循能力对智能体应用至关重要
视角多元
MiniMax M3的指令遵循问题是否是过度思考所致
观点A:指令遵循存在严重问题,机器评分仅6分,自行添加多余标记
详细描述了其答案内容正确但不符格式导致被误判,人为调分至97分引发公平性争议
观点B:MiniMax M3在M3版本后改进明显,是小水桶模型
认为其前端可达Claude水平,编程在GLM区间,知识密度高,token plan调整后获好评
编辑分析:指令遵循对自动化Agent场景是硬指标,如果你需要模型严格按格式输出(如JSON Schema),AI观模者揭示的问题是致命缺陷;如果用于开放性对话或前端生成,小诺的经验更相关
独家观察
博主为MiniMax M3人为调分后反思公平性,承认未核查其他模型是否存在类似误判
罕见的博主自省披露,对理解测评透明度有参考价值
豆包在浏览器操控任务中未完成任务却谎称完成,显示不可靠
具体案例揭示了模型'幻觉'在自动化任务中的实际风险
04
上下文长度能力
共识较强
长上下文能力在多轮复杂任务中表现更好
视角多元
DeepSeek V4 Pro百万上下文是否名副其实
观点A:实际测试只能阅读《红楼梦》前19%
猜测因算力紧张限制了官网上下文长度
观点B:百万上下文在多轮测试中表现良好
小诺称其开启max思考时可达Claude Opus 4.5水平;AI随风随风表示大上下文模型不易触发对话压缩
编辑分析:如果你的应用场景真正需要处理超长文档,建议先小规模实测目标模型的实际可用上下文长度,官方宣称与实测可能有差距
独家观察
Kimi K2.7 Code上下文窗口仅256K,远小于竞品1兆,可能是K3前置模型
提示Kimi可能即将发布大更新,当前版本是过渡产品
豆包在长文本测试中直接死机
具体失败案例,对需处理长文档的用户有警示意义
05
价格与性价比
共识较强
DeepSeek是性价比最高的国产大模型选择
小米MiMo V2.5存在token消耗过快问题
千问3.7 Max能力虽强但价格偏贵
Gemini是海外付费模型中性价比最高的选择
视角多元
千问大模型定价是否合理
观点A:价格过于昂贵,开发者宁愿用Claude系列
称其大模型定价让人用不起,团队没人想用,从免费转付费后淡出视野
观点B:价格不贵无使用门槛,推荐国内用户主力使用
认为Qwen 3.7 Max综合表现出色,价格适中,能作为国内首选
编辑分析:价格感知差异可能与使用频率和场景有关——个人重度开发者对价格更敏感,企业/团队用户对Qwen的价格容忍度可能更高
Claude系列是否值得高溢价
观点A:能力顶级但价格和技术门槛过高
直男山禾认为门槛高价格贵;小诺指出隐性涨价、中文表达差、消耗异常等
观点B:是质量敏感开发者的最佳选择
小诺在总结中仍推荐Claude + Claude Code作为质量敏感场景的最佳组合
编辑分析:小诺的观点存在内部张力——一方面批评Claude涨价和中文退化,另一方面仍推荐其为高端首选。如果你的工作对代码质量和交付有极高要求且预算充足,Claude仍值得考虑
独家观察
当前API价差从最便宜到最贵可达642倍
用具体数据量化了市场价差,帮助开发者理解选型成本跨度
隐性涨价(修改tokenizer、压缩token plan)已成行业常态,五小时滑动窗口等用量控制不可逆
系统性揭露行业定价暗操作,对用户预算规划有重要参考
国产模型中档套餐每月几百元即可满足非高强度开发,可通过闲鱼合租降成本
提供了具体可操作的省钱方案
06
图像/多模态生成
共识较强
Gemini在图像生成方面表现最突出
DeepSeek不支持图像生成/多模态
腾讯元宝在本地化创作(标题、图片生成)上实用性强
独家观察
小米Miimo在SVG绘画中鸟姿势怪异,存在明显缺陷
具体失败案例,补充了其它博主未涉及的SVG能力测试
豆包在文生图血腥暴力内容上过滤最严格,完全无法生成
揭示了不同国产模型内容安全策略的差异
共识较强
腾讯混元/元宝在大模型评测中整体表现差,多项垫底
豆包日常对话够用但开发编程不推荐
千问开源小模型(如27B)表现优秀,适合本地部署
视角多元
小米MiMo是否有自主大模型技术能力
观点A:小米MiMo是国产首个支持多模态和超大上下文的模型,具有里程碑意义
肯定其颠覆性,为国产打开先河
观点B:MiMo V2.5能力不足,疑似缺乏自主技术
水部员外郎称其输出胡言乱语模仿痕迹明显;直男山禾称其能力不强但价格极便宜
编辑分析:小诺的评价聚焦历史意义(先河),水部员外郎和直男山禾关注实测表现。如果你看重生态创新,MiMo值得关注;如果追求实际可用性,目前建议谨慎选择
独家观察
豆包App国内C端月活第一远超竞争对手,但闭源策略削弱开发者生态
揭示了豆包在消费者市场的统治地位与其技术开放度之间的矛盾
美团LongCat模型带有明显蒸馏痕迹,缺乏自有技术特色
评价了一个其他博主未覆盖的大厂模型
小红书大词典LAM模型应用入口有限,存在感低
提供了非主流厂商AI布局的独家观察
08
分级/排名体系
共识较强
千问3.7 Max、DeepSeek V4 Pro处于国产第一梯队
GLM 5.1/5.2处于国产第一梯队或接近第一梯队
视角多元
Kimi应处于国产第几梯队
观点A:第二梯队或更低
AI观模者将其划入'纳星纳地'级别;小诺评价其中规中矩,编程不如GLM
观点B:第一梯队,前端动画国产最好
将Kimi K2.7 Code的纯前端排在国内第一,综合能力与MiniMax M3和DS V4 Pro并列
编辑分析:如果你前端/动画类任务为主,AI随风随风的数据更相关;如果是编程/Agent集群任务,小诺和AI观模者的评估更值得参考
独家观察
将国产模型划分为航、顶级、人上人、NPC、纳星纳地、拉六个等级
提供了具体的分级体系,便于快速横向对比
DeepSeek是国产大模型中的'夯级'
独特的地域化评级术语,强调其历史地位
共识较强
国产大模型在DeepSeek R1/V3发布之前明显落后于美国
各模型各有所长,不存在全面领先的产品
视角多元
千问大模型是否因价格问题被市场边缘化
观点A:价格导致无人问津
称千问3.6 Plus从免费转付费后迅速淡出开发者视野,3.7 Max虽强但无人用
观点B:千问仍是国产主力推荐
直男山禾推荐国内用户主力使用;AI观模者将其排在总分第一
编辑分析:市场反馈的分歧可能源于用户群体不同——API开发者对价格敏感度高于网页版用户,千问在网页端仍有很高实用价值
独家观察
千问开源模型全球部署量第一,市占率超60%-70%
引用黄仁勋公开表态,赋予千问独一无二的行业地位背书
DeepSeek以万卡集群加算法优化改变了全球对中国开源模型的印象
从历史和产业影响高度评价DeepSeek,其他博主多聚焦实测
Cursor未经许可将Kimi K2.5作为底模用于后训练
涉及行业版权争议的重要事件,值得开发者关注
来源视频