本次评测为无植入、无广告、无公司付费的独立横评,测试用例贴近日常使用。
博主在视频开头明确声明。
在照片生成任务中,腾讯元宝表现最好,细节完整、生成稳定。
博主称其细节完整,生成稳定,获得5分。
豆包、千问、Gemini和ChatGPT在照片生成中基本能达到要求,但在文字或局部细节上存在小问题。
这些模型都能生成,仅有细节瑕疵,得分4分。
文心一言在照片生成中效果一般,只实现了背景模糊而无人物运动模糊。
博主评价为效果一般,得3分。
Koiko在照片生成中风格偏真实但不符合暖色要求,错误较多。
博主指出其整体错误比较多,只得1分。
Kimmy和DeepSeek无法完成照片生成,或因不支持图片功能而零分。
博主称要么无法生成,要么不支持图片功能还要充钱。
在四宫格漫画生成中,Gemini表现最突出,分镜、风格、逻辑都很到位。
博主评价其表现最为突出,得4分。
腾讯元宝和ChatGPT在漫画生成中理解基本要求,但在细节和数量上有疏忽。
博主称细节和数量上有疏忽,得分3分。
Koiko在漫画生成中存在人物数量和逻辑错误。
博主称只能拿到两分。
豆包、文心一言、千问和Kimmy在漫画生成中与描述差距大或生成不完整,得零分。
博主称错误较多或生成不完整,均为零分。
DeepSeek不支持图片生成,漫画生成得零分。
博主明确说明DeepSeek因不支持生成所以零分。
在标题创作测试中,文心一言的三个标题都能用,表现最佳。
博主称标题一二三都还可以,得五分。
豆包生成的标题部分合格,但标题二突出跑分并非该手机最大优势。
博主评价稍微合格,得四分。
Kimmy的首选标题不当,但其他两个标题还能用。
博主称首选标题会被喷死,但另两个可用,得四分。
千问生成的标题一二还行,但标题三排版容易在首页被隐藏。
博主指出按习惯会调整,得四分。
腾讯元宝的三个标题都写的不错,在标题创作中评价最高。
博主称不愧是微信语料大合集,得五分。
DeepSeek在标题创作上分析看似到位,但实际可用的标题少且存在不符合实际的内容。
博主指出标题二续航怪兽不符和标题三招黑。
Grok在标题创作中只有一个标题可用,其余不符合实际情况。
博主称标题一和标题三均有不符实际之处,得三分。
ChatGPT的标题存在与文档事实不符的问题,评价较低。
博主指出未实测10小时续航等,得三分。
国产生成式AI在出标题上更符合中国人口味,具有本地化优势。
博主从结果得出国产更符合国人习惯。
在长上下文记忆测试中,ChatGPT漏问题最少,列出21个问题,Kimi和Gemini紧随其后,三者表现较好。
它们得分四分,问题遗漏较少。
豆包、Grok、DeepSeek和元宝在长上下文记忆测试中漏数量且未按要求列表,表现一般。
博主给出三分。
千问在长上下文记忆测试中随机记录提问,回答自相矛盾;文心一言则完全杜撰答案,表现极差。
博主指出千问列出九个问题却说问了七个,文心一言纯粹瞎回答。
在后续记忆测试中,除文心一言外其他模型全部通过,文心一言遗忘前文内容。
博主说文心一言直接说没有提及,忘了之前内容。
在生成文本尺度限制测试中,豆包全部提示血腥暴力,无法生成,限制最严格。
博主称豆包没有一个能通过,非常和谐。
其他生成式AI都能正常生成包含血腥暴力的文本,相比色色内容,这类限制较低。
博主指出相对而言,血腥暴力、猎奇甚至涉及婴幼儿的限制都比较低。
在洗稿改写任务中,豆包和千问能达到实用水平,语气口语化。
博主评价语气相对口语化很多,可以打五分。
Gemini的洗稿结果人性化,效果不错。
博主评价写成了短文,但出来效果比较人性化,打五分。
Kimmy、元宝和Grok的洗稿结果较为保守,结构匹配但口语化少,较为严肃。
博主称重写是有的,但口语化较少,得四分。
DeepSeek、文心一言和ChatGPT的洗稿与原文类似度高,但单独看不直接像AI内容。
博主称一眼能看出和原文类似度较高,给三分。
在多文件发票分析中,只有Claude算对了数值并正常推算。
测试中只有Claude正确。
DeepSeek、Gemini、Kimmy、千问、文心一言等模型在多文件分析中连最基础的统计数值都错误,得零分。
博主称统计数值都不对。
ChatGPT不支持单次上传20个文件,第二次传要充钱;腾讯元宝直接处理失败。
博主指出限制和失败。
在实际座位图计数中,人工计数得出3162个座位,但所有AI计数结果均不准确,全军覆没。
博主测试实际数后,所有AI未正确给出结果,可能与图片压缩算法有关。
DeepSeek直接表示无法计数,千问和元宝给出的结果远小于实际值(约200多),其他模型结果也均错误。
博主列出各种错误结果。
目前国内付费AI订阅价格分别为:Kimi 49元/月,Grok 约207元/月,Google Gemini 28元/月,ChatGPT约59元/月。
博主查询并列出价格。
如果必须付费,谷歌Gemini是付费订阅中性价比最高的选择。
博主称其性能不错,水印很小,可用模型多。
综合所有测试,Gemini凭借均衡稳定的输出、优秀的图片生成和可靠的长上下文记忆,成为本次横评中综合得分最高、最适合日常高频使用的模型。
博主总结各项目表现后得出。
腾讯元宝在图片生成和标题创作这类本地化场景中表现突出,实用性强。
博主在总结中强调。
海外模型在综合能力上优势多一点点,国产模型则在本地化创作和口语表达上更贴合国内用户习惯。
博主基于评测得出整体印象。
用户应根据自己的使用场景和需求来选择合适的大模型。
博主建议。