AI山竹菌：16 条观点汇总

参与共识

大模型横评具有局限性，单一测试无法全面反映模型能力国产大模型横评 · 测评方法测试应贴近实际使用场景而非仅看跑分国产大模型横评 · 测评方法指令遵循能力对智能体应用至关重要国产大模型横评 · 模型稳定性与指令遵循 DeepSeek是性价比最高的国产大模型选择国产大模型横评 · 价格与性价比腾讯元宝在本地化创作（标题、图片生成）上实用性强国产大模型横评 · 图像/多模态生成豆包日常对话够用但开发编程不推荐国产大模型横评 · 局部模型/特定场景评价各模型各有所长，不存在全面领先的产品国产大模型横评 · 市场定位与历史贡献

国产大模型横评

查看完整分析 →

中立测评方法

国产大模型没有一款各方面都赢，各有擅长和短板，不存在全面领先的产品。

四轮测试后博主认为每款模型表现不同，有的任务精通、有的翻车，结论是“没有一款是各方面都赢的”“各有各的擅长，各有各的翻车”。

来源：4大国产AI到底行不行？

认同测评方法

豆包在日常对话和简单任务中足够使用，回答不啰嗦。

博主在多个任务中认为豆包“够用”“最实在”“不啰嗦”，并明确推荐日常聊天随手问选豆包。

来源：4大国产AI到底行不行？

认同测评方法

千问在需要细节和专业建议的场景下最贴心，但有时过于啰嗦。

千问在租房、份子钱、扫地机器人等任务中给出了最周全的提示和建议，博主评价“最贴心”“最专业”，但在份子钱回答中也被指出“有点啰嗦”。

来源：4大国产AI到底行不行？

认同测评方法

DeepSeek在逻辑推理和技术分析方面最实在，但回答风格冷淡、缺乏人情味。

博主评价其为“工科生答题风格”“太冷了”“就像个局外人”，但肯定其在技术分析上“最实在”“纯靠技术出圈”。

来源：4大国产AI到底行不行？

认同测评方法

元宝接入了微信生态，适合需要微信内直接使用的办公协作场景。

博主明确说明“如果你想要接微信生态进行办公协作，那咱们选元宝，微信里面直接就可以用”。

来源：4大国产AI到底行不行？

认同测评方法

DeepSeek是目前四款中唯一完全开源免费的模型。

博主在预算为零时推荐“咱们直接 DeepSeek 开源免费”。

来源：4大国产AI到底行不行？

认同测评方法

千问是唯一提醒用户现在租房很少用物理现金，通常使用支付宝、微信转账的模型。

博主在第一关测试后指出“千问是唯一一个提醒我现在租房很少用物理现金，通常是支付宝、微信转账的，这个细节呀其他三个可都没想到”。

来源：4大国产AI到底行不行？

认同测评方法

豆包在随份子场景中最懂人情世故，给出了具体金额并建议避开忌讳数字。

博主评价豆包“最懂人情”，给出了杭州五百到八百、避开四百的建议，且回答实在。

来源：4大国产AI到底行不行？

认同测评方法

千问在婚礼份子钱问题上逻辑最完整，考虑了礼尚往来、出席、行情和数字忌讳四个因素。

博主列出千问分析了四个关键因素，并特别提醒对等回礼原则，认为“逻辑非常完整”。

来源：4大国产AI到底行不行？

不认同测评方法

DeepSeek在人情问题上只给出标准答案，追问“不想去怎么办”时回答为废话。

博主在份子钱测试中认为DeepSeek的回答是“标准答案，一点废话都没有”，追问时直接说“根据个人意愿决定，这不废话吗？”

来源：4大国产AI到底行不行？

不认同测评方法

元宝在扫地机器人推荐中给出的机型价格在两千到两千三，超出博主两千预算。

博主明确表示元宝“推荐的机型价格都在两千到两千三，有点超预算了”。

来源：4大国产AI到底行不行？

认同测评方法

豆包在扫地机器人选购任务中给出的内容最直接，包含详细表格、避坑指南和明确推荐总结。

博主评价“豆包最直接”，并详细描述了它提供了核心选购要点、四款机型推荐、避坑指南、最终推荐总结，每款标注价格和关键特性。

来源：4大国产AI到底行不行？

认同测评方法

千问在解读完全正常的狗狗生化检验报告时直接给出了“不严重，甚至可以说非常健康”的结论，表现最直接。

博主指出“千问直接说这是一张完全正常的生化检验报告单，结论不严重，甚至可以说非常健康”，评其“最直接”。

来源：4大国产AI到底行不行？

中立测评方法

豆包和元宝在解读正常生化报告时采取了保守态度，强调需结合其他临床信息综合判断。

博主评价“豆包和元宝最稳妥”，两者都提醒生化正常不等于无严重问题，需结合临床症状和进一步检查。

来源：4大国产AI到底行不行？

不认同测评方法

DeepSeek在解读正常生化报告时过于敷衍，没有解读具体指标。

博主指出DeepSeek“没有解读具体指标，只是说所有指标都在正常范围内”，评其“有点过于敷衍了”。

来源：4大国产AI到底行不行？

中立测评方法

模型在同样任务上表现差异很大，跑分不能代表实际使用效果。

博主打比方表示四个模型像四个各有擅长的应届生，强调“考试分数接近，不代表你用它干活也接近，这就是为什么我不看跑分，而是直接上任务”。

来源：4大国产AI到底行不行？