中立测评方法
国产大模型没有一款各方面都赢,各有擅长和短板,不存在全面领先的产品。
四轮测试后博主认为每款模型表现不同,有的任务精通、有的翻车,结论是“没有一款是各方面都赢的”“各有各的擅长,各有各的翻车”。
来源:4大国产AI到底行不行?认同测评方法
豆包在日常对话和简单任务中足够使用,回答不啰嗦。
博主在多个任务中认为豆包“够用”“最实在”“不啰嗦”,并明确推荐日常聊天随手问选豆包。
来源:4大国产AI到底行不行?认同测评方法
千问在需要细节和专业建议的场景下最贴心,但有时过于啰嗦。
千问在租房、份子钱、扫地机器人等任务中给出了最周全的提示和建议,博主评价“最贴心”“最专业”,但在份子钱回答中也被指出“有点啰嗦”。
来源:4大国产AI到底行不行?认同测评方法
DeepSeek在逻辑推理和技术分析方面最实在,但回答风格冷淡、缺乏人情味。
博主评价其为“工科生答题风格”“太冷了”“就像个局外人”,但肯定其在技术分析上“最实在”“纯靠技术出圈”。
来源:4大国产AI到底行不行?认同测评方法
元宝接入了微信生态,适合需要微信内直接使用的办公协作场景。
博主明确说明“如果你想要接微信生态进行办公协作,那咱们选元宝,微信里面直接就可以用”。
来源:4大国产AI到底行不行?认同测评方法
DeepSeek是目前四款中唯一完全开源免费的模型。
博主在预算为零时推荐“咱们直接 DeepSeek 开源免费”。
来源:4大国产AI到底行不行?认同测评方法
千问是唯一提醒用户现在租房很少用物理现金,通常使用支付宝、微信转账的模型。
博主在第一关测试后指出“千问是唯一一个提醒我现在租房很少用物理现金,通常是支付宝、微信转账的,这个细节呀其他三个可都没想到”。
来源:4大国产AI到底行不行?认同测评方法
豆包在随份子场景中最懂人情世故,给出了具体金额并建议避开忌讳数字。
博主评价豆包“最懂人情”,给出了杭州五百到八百、避开四百的建议,且回答实在。
来源:4大国产AI到底行不行?认同测评方法
千问在婚礼份子钱问题上逻辑最完整,考虑了礼尚往来、出席、行情和数字忌讳四个因素。
博主列出千问分析了四个关键因素,并特别提醒对等回礼原则,认为“逻辑非常完整”。
来源:4大国产AI到底行不行?不认同测评方法
DeepSeek在人情问题上只给出标准答案,追问“不想去怎么办”时回答为废话。
博主在份子钱测试中认为DeepSeek的回答是“标准答案,一点废话都没有”,追问时直接说“根据个人意愿决定,这不废话吗?”
来源:4大国产AI到底行不行?不认同测评方法
元宝在扫地机器人推荐中给出的机型价格在两千到两千三,超出博主两千预算。
博主明确表示元宝“推荐的机型价格都在两千到两千三,有点超预算了”。
来源:4大国产AI到底行不行?认同测评方法
豆包在扫地机器人选购任务中给出的内容最直接,包含详细表格、避坑指南和明确推荐总结。
博主评价“豆包最直接”,并详细描述了它提供了核心选购要点、四款机型推荐、避坑指南、最终推荐总结,每款标注价格和关键特性。
来源:4大国产AI到底行不行?认同测评方法
千问在解读完全正常的狗狗生化检验报告时直接给出了“不严重,甚至可以说非常健康”的结论,表现最直接。
博主指出“千问直接说这是一张完全正常的生化检验报告单,结论不严重,甚至可以说非常健康”,评其“最直接”。
来源:4大国产AI到底行不行?中立测评方法
豆包和元宝在解读正常生化报告时采取了保守态度,强调需结合其他临床信息综合判断。
博主评价“豆包和元宝最稳妥”,两者都提醒生化正常不等于无严重问题,需结合临床症状和进一步检查。
来源:4大国产AI到底行不行?不认同测评方法
DeepSeek在解读正常生化报告时过于敷衍,没有解读具体指标。
博主指出DeepSeek“没有解读具体指标,只是说所有指标都在正常范围内”,评其“有点过于敷衍了”。
来源:4大国产AI到底行不行?中立测评方法
模型在同样任务上表现差异很大,跑分不能代表实际使用效果。
博主打比方表示四个模型像四个各有擅长的应届生,强调“考试分数接近,不代表你用它干活也接近,这就是为什么我不看跑分,而是直接上任务”。
来源:4大国产AI到底行不行?