国产大模型横评

7位 UP 主

7个视频

196个论点

国产大模型百花齐放，但第一梯队究竟是谁？千问3.7 Max定价是否合理？MiniMax M3稳定性致命？本报告基于7位博主、196条论断的交叉分析，覆盖编程、性价比、多模态、上下文长度等8个子话题，提炼20+共识与争议点，用数据告诉你每款模型最适合什么场景。无论是开发者选型还是日常使用，这份横评都能帮你避开信息茧房。

一句话总结

国产第一梯队（千问Max/DS V4 Pro/GLM 5.1）编程与综合能力接近海外，日常可按需选用。

测评方法

共识较强

大模型横评具有局限性，单一测试无法全面反映模型能力

测试应贴近实际使用场景而非仅看跑分

视角多元

客观跑分测评 vs 主观体验测评哪个更有参考价值

观点A：偏重客观测评工具与量化分数

使用BenchLogo工具进行155项测试，给出800分制量化排名，强调可复现性

观点B：偏重实际任务体验而非跑分

明确表示'不看跑分直接上任务'，用日常场景如租房、份子钱、洗稿等贴近用户的测试

编辑分析：如果你关注编程/Agent等专业能力，参考AI观模者的量化排名；如果你关心日常对话、文案等C端体验，AI山竹菌和新昼的场景测试更有参考价值

独家观察

BenchLogo测试中命令行是最难项，从未有模型满分，90分以上罕见

提供了关于特定测试维度难度量化的独家经验数据

Bug修复测试中故意设置无bug题目作为陷阱测试模型判断力

揭露了测试设计的反直觉细节，对理解模型'诚实度'有启发

编程/代码能力

共识较强

千问3.7 Max是当前国产编程能力最强的模型之一

智谱GLM 5.1/5.2在国产模型中编程能力突出，逼近Claude

腾讯混元/元宝代码与开发能力差，多项测试垫底

DeepSeek V4 Pro编程能力与第一梯队接近，性价比极高

视角多元

Kimi K2.6/K2.7的编程能力是否有竞争力

观点A：编程能力有明显差距，不如GLM和千问

小诺指出K2.6在开发中被GLM-5.1拉开差距；AI随风随风指出K2.7 Code后端测试功能完成度低，多处报错

观点B：编程能力在特定场景下可以接受

水部员外郎表示Kimi K2.5是其编程主力，体验优于DeepSeek V3.2；AI观模者的得分中Kimi处于第二梯队

编辑分析：如果你用模型做大型项目开发，Kimi目前不如千问/GLM稳定；如果是中小型脚本或个人项目，Kimi仍可胜任，且前端能力有优势

独家观察

MiniMax M3在私有Api测试中前端可达Claude Opus 4.6-4.7水平，编程在GLM 5到5.1之间

给出了MiniMax M3与海外模型的精准对标，其他博主未做此类量化对比

GLM-5.2推理时间极长，通过时间换准确率

揭示了GLM最新模型的实际使用代价，对时间敏感场景的开发者有警示意义

模型稳定性与指令遵循

共识较强

MiniMax M3频繁超时，稳定性问题严重

指令遵循能力对智能体应用至关重要

视角多元

MiniMax M3的指令遵循问题是否是过度思考所致

观点A：指令遵循存在严重问题，机器评分仅6分，自行添加多余标记

详细描述了其答案内容正确但不符格式导致被误判，人为调分至97分引发公平性争议

观点B：MiniMax M3在M3版本后改进明显，是小水桶模型

认为其前端可达Claude水平，编程在GLM区间，知识密度高，token plan调整后获好评

编辑分析：指令遵循对自动化Agent场景是硬指标，如果你需要模型严格按格式输出（如JSON Schema），AI观模者揭示的问题是致命缺陷；如果用于开放性对话或前端生成，小诺的经验更相关

独家观察

博主为MiniMax M3人为调分后反思公平性，承认未核查其他模型是否存在类似误判

罕见的博主自省披露，对理解测评透明度有参考价值

豆包在浏览器操控任务中未完成任务却谎称完成，显示不可靠

具体案例揭示了模型'幻觉'在自动化任务中的实际风险

上下文长度能力

共识较强

长上下文能力在多轮复杂任务中表现更好

视角多元

DeepSeek V4 Pro百万上下文是否名副其实

观点A：实际测试只能阅读《红楼梦》前19%

猜测因算力紧张限制了官网上下文长度

观点B：百万上下文在多轮测试中表现良好

小诺称其开启max思考时可达Claude Opus 4.5水平；AI随风随风表示大上下文模型不易触发对话压缩

编辑分析：如果你的应用场景真正需要处理超长文档，建议先小规模实测目标模型的实际可用上下文长度，官方宣称与实测可能有差距

独家观察

Kimi K2.7 Code上下文窗口仅256K，远小于竞品1兆，可能是K3前置模型

提示Kimi可能即将发布大更新，当前版本是过渡产品

豆包在长文本测试中直接死机

具体失败案例，对需处理长文档的用户有警示意义

价格与性价比

共识较强

DeepSeek是性价比最高的国产大模型选择

小米MiMo V2.5存在token消耗过快问题

千问3.7 Max能力虽强但价格偏贵

Gemini是海外付费模型中性价比最高的选择

视角多元

千问大模型定价是否合理

观点A：价格过于昂贵，开发者宁愿用Claude系列

称其大模型定价让人用不起，团队没人想用，从免费转付费后淡出视野

观点B：价格不贵无使用门槛，推荐国内用户主力使用

认为Qwen 3.7 Max综合表现出色，价格适中，能作为国内首选

编辑分析：价格感知差异可能与使用频率和场景有关——个人重度开发者对价格更敏感，企业/团队用户对Qwen的价格容忍度可能更高

Claude系列是否值得高溢价

观点A：能力顶级但价格和技术门槛过高

直男山禾认为门槛高价格贵；小诺指出隐性涨价、中文表达差、消耗异常等

观点B：是质量敏感开发者的最佳选择

小诺在总结中仍推荐Claude + Claude Code作为质量敏感场景的最佳组合

编辑分析：小诺的观点存在内部张力——一方面批评Claude涨价和中文退化，另一方面仍推荐其为高端首选。如果你的工作对代码质量和交付有极高要求且预算充足，Claude仍值得考虑

独家观察

当前API价差从最便宜到最贵可达642倍

用具体数据量化了市场价差，帮助开发者理解选型成本跨度

隐性涨价（修改tokenizer、压缩token plan）已成行业常态，五小时滑动窗口等用量控制不可逆

系统性揭露行业定价暗操作，对用户预算规划有重要参考

国产模型中档套餐每月几百元即可满足非高强度开发，可通过闲鱼合租降成本

提供了具体可操作的省钱方案

图像/多模态生成

共识较强

Gemini在图像生成方面表现最突出

DeepSeek不支持图像生成/多模态

腾讯元宝在本地化创作（标题、图片生成）上实用性强

独家观察

小米Miimo在SVG绘画中鸟姿势怪异，存在明显缺陷

具体失败案例，补充了其它博主未涉及的SVG能力测试

豆包在文生图血腥暴力内容上过滤最严格，完全无法生成

揭示了不同国产模型内容安全策略的差异

局部模型/特定场景评价

共识较强

腾讯混元/元宝在大模型评测中整体表现差，多项垫底

豆包日常对话够用但开发编程不推荐

千问开源小模型（如27B）表现优秀，适合本地部署

视角多元

小米MiMo是否有自主大模型技术能力

观点A：小米MiMo是国产首个支持多模态和超大上下文的模型，具有里程碑意义

肯定其颠覆性，为国产打开先河

观点B：MiMo V2.5能力不足，疑似缺乏自主技术

水部员外郎称其输出胡言乱语模仿痕迹明显；直男山禾称其能力不强但价格极便宜

编辑分析：小诺的评价聚焦历史意义（先河），水部员外郎和直男山禾关注实测表现。如果你看重生态创新，MiMo值得关注；如果追求实际可用性，目前建议谨慎选择

独家观察

豆包App国内C端月活第一远超竞争对手，但闭源策略削弱开发者生态

揭示了豆包在消费者市场的统治地位与其技术开放度之间的矛盾

美团LongCat模型带有明显蒸馏痕迹，缺乏自有技术特色

评价了一个其他博主未覆盖的大厂模型

小红书大词典LAM模型应用入口有限，存在感低

提供了非主流厂商AI布局的独家观察

分级/排名体系

共识较强

千问3.7 Max、DeepSeek V4 Pro处于国产第一梯队

GLM 5.1/5.2处于国产第一梯队或接近第一梯队

视角多元

Kimi应处于国产第几梯队

观点A：第二梯队或更低

AI观模者将其划入'纳星纳地'级别；小诺评价其中规中矩，编程不如GLM

观点B：第一梯队，前端动画国产最好

将Kimi K2.7 Code的纯前端排在国内第一，综合能力与MiniMax M3和DS V4 Pro并列

编辑分析：如果你前端/动画类任务为主，AI随风随风的数据更相关；如果是编程/Agent集群任务，小诺和AI观模者的评估更值得参考

独家观察

将国产模型划分为航、顶级、人上人、NPC、纳星纳地、拉六个等级

提供了具体的分级体系，便于快速横向对比

DeepSeek是国产大模型中的'夯级'

独特的地域化评级术语，强调其历史地位

市场定位与历史贡献

共识较强

国产大模型在DeepSeek R1/V3发布之前明显落后于美国

各模型各有所长，不存在全面领先的产品

视角多元

千问大模型是否因价格问题被市场边缘化

观点A：价格导致无人问津

称千问3.6 Plus从免费转付费后迅速淡出开发者视野，3.7 Max虽强但无人用

观点B：千问仍是国产主力推荐

直男山禾推荐国内用户主力使用；AI观模者将其排在总分第一

编辑分析：市场反馈的分歧可能源于用户群体不同——API开发者对价格敏感度高于网页版用户，千问在网页端仍有很高实用价值

独家观察

千问开源模型全球部署量第一，市占率超60%-70%

引用黄仁勋公开表态，赋予千问独一无二的行业地位背书

DeepSeek以万卡集群加算法优化改变了全球对中国开源模型的印象

从历史和产业影响高度评价DeepSeek，其他博主多聚焦实测

Cursor未经许可将Kimi K2.5作为底模用于后训练

涉及行业版权争议的重要事件，值得开发者关注

来源视频

MiniMax-M3拉中拉！国产大模型DeepSeek/Qwen/Kimi/MiniMax横评

AAI观模者

2026上半年大模型盘点：选对你的AI底座

圣圣徒城的小诺

2026 无广AI横评｜9 款主流AI大模型多维度实测！豆包，文心，Kimi ，千问，元宝，DeepSeek，ChatGPT....

新新昼xx

4大国产AI到底行不行？

AAI山竹菌

GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

AAI随风随风

6大AI模型暴力测评！2026到底谁才是真好用？

直直男山禾

2026年从夯到拉锐评国产大模型

水水部员外郎