DeepSeek凭借扎实的算法和低成本优化,改变了全球对中国开源模型的印象。
博主认为 DeepSeek 以万卡集群烧出来的模型加上算法优化,为世界带来了全新的中国开源自部署模型形象。
在 DeepSeek R1 和 V2/V3 发布之前,国产大模型明显落后于美国。
博主指出当时国产模型被美国模型碾压,DeepSeek 的出现才逐步扭转局面。
DeepSeek V3.2 在对话、深度思考和编程场景中表现出色。
实际使用中发现模型结果客观可信,尽管思考时间和输出略显冗长,但整体效果很好。
DeepSeek 的历史贡献和当前能力使其成为国产大模型中的夯级。
博主综合历史与现状,认为 DeepSeek 无论资历还是实测都配得上最高评价。
阿里通义千问是过去几年全球开源社区部署量第一的模型,市占率超 60%-70%。
引用英伟达 CEO 黄仁勋的公开表态,指出千问在开源领域市占率不断上升,带来股价大涨。
千问最强模型如 Qwen3-Max 和 Thinking 版本为商业闭源,仅能通过阿里云使用。
博主指出大家熟知千问开源,但真正最强的版本是闭源的,说明其商业策略分层。
千问的开源和闭源模型均可作为美国顶级模型的可靠替代品。
博主认为即使网络不好只能用国产,千问也如同百度或必应一样是可用的替代方案,有力竞争。
豆包 App 国内 C 端月活第一,远超第二到十名。
博主明确指出豆包在 C 端 App 中拥有绝对制霸地位,是王者级应用。
豆包采用类谷歌的闭源策略,开源模型滞后且鲜少更新。
博主认为豆包只发小尺寸开源模型,类似 Gemini 转向闭源,削弱了其在开发者生态的影响力。
豆包缺乏广泛外部跑分验证,版本迭代较慢,真实水平不易评估。
博主指出豆包未积极参榜,封闭性强,导致外界难以窥其真面目,有疑似水货之嫌。
Kimi K2.5、MiniMax 2.1 和 GLM 4.7 是非常优秀的开源模型。
博主认为这三款模型在全球开源模型中也属于第一或第二梯队,是编程场景的优秀选择。
这三款模型是企业自部署或低成本编程商业化的有力替代方案。
因合规或成本考量不适合使用海外模型时,它们可以替代 Claude 等模型,且得到高频编程用户认可。
博主个人在编程场景中将 Kimi K2.5 作为主力模型,体验优于 DeepSeek V3.2 等同类。
实际使用中 Kimi K2.5 在 plan 能力和输出上明显更好,成为博主首选。
小红书的大词典 LAM 模型应用入口有限,仅在内部少数灰度功能中可用,存在感低。
博主指出该模型仅在小红书内的点点功能等有限场景使用,普通用户接触少,难以评价。
美团 LongCat 模型带有明显蒸馏痕迹,缺乏自身技术特色。
博主认为回复风格模仿前代模型,技术上没有突出点,只能评 NPC。
文心一言关注度持续走低,重度 AI 用户几乎不再使用。
博主表示虽然文心一言宣称榜单靠前,但身边已无重度用户使用,存在感很弱,起大早赶晚集。
百灵模型有一些技术亮点,但 C 端用户存在感弱,定位模糊。
博主从技术报告中看到亮点,但该模型与蚂蚁其他 AI 应用关系不明,C 端尚未证明自己。
小米 Miimo 模型推出后回答胡言乱语,疑似缺乏自主技术。
博主测试发现 Miimo 输出不自洽,模仿其他模型明显,即使包容性开发者角度也觉得不可用。
腾讯混元(元宝)实际使用中上下文理解能力极差,回答不对题。
博主多次测试中,混元连简单的上下文都无法继承,回答驴唇不对马嘴,体验极其糟糕。
混元拥有微信等海量流量入口和巨额投入,但模型能力与投入严重不匹配。
博主认为腾讯作为最大互联网企业,投入巨大却产出如此低质的大模型,且元宝内还需内置 DeepSeek 入口,显示不自信。