2026年从夯到拉锐评国产大模型 — 水部员外郎 | 国产大模型横评

认同

编程/代码能力

DeepSeek凭借扎实的算法和低成本优化，改变了全球对中国开源模型的印象。

博主认为 DeepSeek 以万卡集群烧出来的模型加上算法优化，为世界带来了全新的中国开源自部署模型形象。

认同

编程/代码能力

在 DeepSeek R1 和 V2/V3 发布之前，国产大模型明显落后于美国。

博主指出当时国产模型被美国模型碾压，DeepSeek 的出现才逐步扭转局面。

认同

编程/代码能力

DeepSeek V3.2 在对话、深度思考和编程场景中表现出色。

实际使用中发现模型结果客观可信，尽管思考时间和输出略显冗长，但整体效果很好。

认同

编程/代码能力

DeepSeek 的历史贡献和当前能力使其成为国产大模型中的夯级。

博主综合历史与现状，认为 DeepSeek 无论资历还是实测都配得上最高评价。

认同

编程/代码能力

阿里通义千问是过去几年全球开源社区部署量第一的模型，市占率超 60%-70%。

引用英伟达 CEO 黄仁勋的公开表态，指出千问在开源领域市占率不断上升，带来股价大涨。

中立

编程/代码能力

千问最强模型如 Qwen3-Max 和 Thinking 版本为商业闭源，仅能通过阿里云使用。

博主指出大家熟知千问开源，但真正最强的版本是闭源的，说明其商业策略分层。

认同

编程/代码能力

千问的开源和闭源模型均可作为美国顶级模型的可靠替代品。

博主认为即使网络不好只能用国产，千问也如同百度或必应一样是可用的替代方案，有力竞争。

认同

编程/代码能力

豆包 App 国内 C 端月活第一，远超第二到十名。

博主明确指出豆包在 C 端 App 中拥有绝对制霸地位，是王者级应用。

不认同

编程/代码能力

豆包采用类谷歌的闭源策略，开源模型滞后且鲜少更新。

博主认为豆包只发小尺寸开源模型，类似 Gemini 转向闭源，削弱了其在开发者生态的影响力。

不认同

编程/代码能力

豆包缺乏广泛外部跑分验证，版本迭代较慢，真实水平不易评估。

博主指出豆包未积极参榜，封闭性强，导致外界难以窥其真面目，有疑似水货之嫌。

认同

编程/代码能力

Kimi K2.5、MiniMax 2.1 和 GLM 4.7 是非常优秀的开源模型。

博主认为这三款模型在全球开源模型中也属于第一或第二梯队，是编程场景的优秀选择。

认同

编程/代码能力

这三款模型是企业自部署或低成本编程商业化的有力替代方案。

因合规或成本考量不适合使用海外模型时，它们可以替代 Claude 等模型，且得到高频编程用户认可。

认同

编程/代码能力

博主个人在编程场景中将 Kimi K2.5 作为主力模型，体验优于 DeepSeek V3.2 等同类。

实际使用中 Kimi K2.5 在 plan 能力和输出上明显更好，成为博主首选。

不认同

编程/代码能力

小红书的大词典 LAM 模型应用入口有限，仅在内部少数灰度功能中可用，存在感低。

博主指出该模型仅在小红书内的点点功能等有限场景使用，普通用户接触少，难以评价。

不认同

编程/代码能力

美团 LongCat 模型带有明显蒸馏痕迹，缺乏自身技术特色。

博主认为回复风格模仿前代模型，技术上没有突出点，只能评 NPC。

不认同

编程/代码能力

文心一言关注度持续走低，重度 AI 用户几乎不再使用。

博主表示虽然文心一言宣称榜单靠前，但身边已无重度用户使用，存在感很弱，起大早赶晚集。

中立

编程/代码能力

百灵模型有一些技术亮点，但 C 端用户存在感弱，定位模糊。

博主从技术报告中看到亮点，但该模型与蚂蚁其他 AI 应用关系不明，C 端尚未证明自己。

不认同

编程/代码能力

小米 Miimo 模型推出后回答胡言乱语，疑似缺乏自主技术。

博主测试发现 Miimo 输出不自洽，模仿其他模型明显，即使包容性开发者角度也觉得不可用。

不认同

编程/代码能力

腾讯混元（元宝）实际使用中上下文理解能力极差，回答不对题。

博主多次测试中，混元连简单的上下文都无法继承，回答驴唇不对马嘴，体验极其糟糕。

不认同

编程/代码能力

混元拥有微信等海量流量入口和巨额投入，但模型能力与投入严重不匹配。

博主认为腾讯作为最大互联网企业，投入巨大却产出如此低质的大模型，且元宝内还需内置 DeepSeek 入口，显示不自信。