2026 无广AI横评｜9 款主流AI大模型多维度实测！豆包，文心，Kimi ，千问，元宝，DeepSeek，ChatGPT.... — 新昼xx | 国产大模型横评

中立

图像/多模态生成

本次评测为无植入、无广告、无公司付费的独立横评，测试用例贴近日常使用。

博主在视频开头明确声明。

认同

图像/多模态生成

在照片生成任务中，腾讯元宝表现最好，细节完整、生成稳定。

博主称其细节完整，生成稳定，获得5分。

中立

图像/多模态生成

豆包、千问、Gemini和ChatGPT在照片生成中基本能达到要求，但在文字或局部细节上存在小问题。

这些模型都能生成，仅有细节瑕疵，得分4分。

不认同

图像/多模态生成

文心一言在照片生成中效果一般，只实现了背景模糊而无人物运动模糊。

博主评价为效果一般，得3分。

不认同

图像/多模态生成

Koiko在照片生成中风格偏真实但不符合暖色要求，错误较多。

博主指出其整体错误比较多，只得1分。

不认同

图像/多模态生成

Kimmy和DeepSeek无法完成照片生成，或因不支持图片功能而零分。

博主称要么无法生成，要么不支持图片功能还要充钱。

认同

图像/多模态生成

在四宫格漫画生成中，Gemini表现最突出，分镜、风格、逻辑都很到位。

博主评价其表现最为突出，得4分。

中立

图像/多模态生成

腾讯元宝和ChatGPT在漫画生成中理解基本要求，但在细节和数量上有疏忽。

博主称细节和数量上有疏忽，得分3分。

不认同

图像/多模态生成

Koiko在漫画生成中存在人物数量和逻辑错误。

博主称只能拿到两分。

不认同

图像/多模态生成

豆包、文心一言、千问和Kimmy在漫画生成中与描述差距大或生成不完整，得零分。

博主称错误较多或生成不完整，均为零分。

不认同

图像/多模态生成

DeepSeek不支持图片生成，漫画生成得零分。

博主明确说明DeepSeek因不支持生成所以零分。

认同

图像/多模态生成

在标题创作测试中，文心一言的三个标题都能用，表现最佳。

博主称标题一二三都还可以，得五分。

中立

图像/多模态生成

豆包生成的标题部分合格，但标题二突出跑分并非该手机最大优势。

博主评价稍微合格，得四分。

中立

图像/多模态生成

Kimmy的首选标题不当，但其他两个标题还能用。

博主称首选标题会被喷死，但另两个可用，得四分。

中立

图像/多模态生成

千问生成的标题一二还行，但标题三排版容易在首页被隐藏。

博主指出按习惯会调整，得四分。

认同

图像/多模态生成

腾讯元宝的三个标题都写的不错，在标题创作中评价最高。

博主称不愧是微信语料大合集，得五分。

不认同

图像/多模态生成

DeepSeek在标题创作上分析看似到位，但实际可用的标题少且存在不符合实际的内容。

博主指出标题二续航怪兽不符和标题三招黑。

不认同

图像/多模态生成

Grok在标题创作中只有一个标题可用，其余不符合实际情况。

博主称标题一和标题三均有不符实际之处，得三分。

不认同

图像/多模态生成

ChatGPT的标题存在与文档事实不符的问题，评价较低。

博主指出未实测10小时续航等，得三分。

认同

图像/多模态生成

国产生成式AI在出标题上更符合中国人口味，具有本地化优势。

博主从结果得出国产更符合国人习惯。

认同

图像/多模态生成

在长上下文记忆测试中，ChatGPT漏问题最少，列出21个问题，Kimi和Gemini紧随其后，三者表现较好。

它们得分四分，问题遗漏较少。

不认同

图像/多模态生成

豆包、Grok、DeepSeek和元宝在长上下文记忆测试中漏数量且未按要求列表，表现一般。

博主给出三分。

不认同

图像/多模态生成

千问在长上下文记忆测试中随机记录提问，回答自相矛盾；文心一言则完全杜撰答案，表现极差。

博主指出千问列出九个问题却说问了七个，文心一言纯粹瞎回答。

不认同

图像/多模态生成

在后续记忆测试中，除文心一言外其他模型全部通过，文心一言遗忘前文内容。

博主说文心一言直接说没有提及，忘了之前内容。

不认同

图像/多模态生成

在生成文本尺度限制测试中，豆包全部提示血腥暴力，无法生成，限制最严格。

博主称豆包没有一个能通过，非常和谐。

中立

图像/多模态生成

其他生成式AI都能正常生成包含血腥暴力的文本，相比色色内容，这类限制较低。

博主指出相对而言，血腥暴力、猎奇甚至涉及婴幼儿的限制都比较低。

认同

图像/多模态生成

在洗稿改写任务中，豆包和千问能达到实用水平，语气口语化。

博主评价语气相对口语化很多，可以打五分。

认同

图像/多模态生成

Gemini的洗稿结果人性化，效果不错。

博主评价写成了短文，但出来效果比较人性化，打五分。

中立

图像/多模态生成

Kimmy、元宝和Grok的洗稿结果较为保守，结构匹配但口语化少，较为严肃。

博主称重写是有的，但口语化较少，得四分。

不认同

图像/多模态生成

DeepSeek、文心一言和ChatGPT的洗稿与原文类似度高，但单独看不直接像AI内容。

博主称一眼能看出和原文类似度较高，给三分。

认同

图像/多模态生成

在多文件发票分析中，只有Claude算对了数值并正常推算。

测试中只有Claude正确。

不认同

图像/多模态生成

DeepSeek、Gemini、Kimmy、千问、文心一言等模型在多文件分析中连最基础的统计数值都错误，得零分。

博主称统计数值都不对。

不认同

图像/多模态生成

ChatGPT不支持单次上传20个文件，第二次传要充钱；腾讯元宝直接处理失败。

博主指出限制和失败。

不认同

图像/多模态生成

在实际座位图计数中，人工计数得出3162个座位，但所有AI计数结果均不准确，全军覆没。

博主测试实际数后，所有AI未正确给出结果，可能与图片压缩算法有关。

不认同

图像/多模态生成

DeepSeek直接表示无法计数，千问和元宝给出的结果远小于实际值（约200多），其他模型结果也均错误。

博主列出各种错误结果。

中立

图像/多模态生成

目前国内付费AI订阅价格分别为：Kimi 49元/月，Grok 约207元/月，Google Gemini 28元/月，ChatGPT约59元/月。

博主查询并列出价格。

认同

图像/多模态生成

如果必须付费，谷歌Gemini是付费订阅中性价比最高的选择。

博主称其性能不错，水印很小，可用模型多。

认同

图像/多模态生成

综合所有测试，Gemini凭借均衡稳定的输出、优秀的图片生成和可靠的长上下文记忆，成为本次横评中综合得分最高、最适合日常高频使用的模型。

博主总结各项目表现后得出。

认同

图像/多模态生成

腾讯元宝在图片生成和标题创作这类本地化场景中表现突出，实用性强。

博主在总结中强调。

中立

图像/多模态生成

海外模型在综合能力上优势多一点点，国产模型则在本地化创作和口语表达上更贴合国内用户习惯。

博主基于评测得出整体印象。

中立

图像/多模态生成

用户应根据自己的使用场景和需求来选择合适的大模型。

博主建议。