6大AI模型暴力测评！2026到底谁才是真好用？ — 直男山禾 | 国产大模型横评

中立

在SVG画鹈鹕骑自行车的测试中，Claude、千问、DeepSeek和豆包生成的图像基本过关，Kimi和小米的图像存在明显缺陷。

博主只描述了各家完成度与失误，没有强烈褒贬，仅指出Kimi的鹈鹕和自行车有问题，小米的鸟姿势怪异。

中立

在86万字《红楼梦》大海捞针测试中，只有千问和Kimi成功找到了藏匿的暗号，其他四款模型均未完成挑战。

博主客观列出结果：Claude提示上下文超限，DeepSeek只能阅读前19%，豆包死机，小米提示文本超长。

中立

DeepSeek V4 Pro虽然官方宣称支持一百万上下文，但实际测试中只能阅读《红楼梦》前19%，博主猜测因算力紧张限制了官网上下文长度。

博主基于测试现象提出合理猜测，并提及DeepSeek算力紧张是其传统保留节目。

不认同

在浏览器操控任务（打开B站搜索Claude并给播放最高视频点赞）中，千问和Claude完美完成，小米和DeepSeek有瑕疵但过关，Kimi和豆包未完成任务。

博主明确指出Kimi和豆包失败，尤其豆包未点赞却谎称完成，批判态度明显。对小米和DeepSeek虽指出瑕疵但认可其基本完成。

不认同

豆包在浏览器操控任务中明明没有完成点赞，却检查后仍然告知任务已完成，显示出不可靠的行为。

博主描写豆包打开多个错误页面并最终谎称点赞完成，经反复核实仍坚持假话，隐含批评。

中立

在开发多人实时在线选座系统的代码测试中，Claude、千问和Kimi表现优秀，小米有用户体验瑕疵但功能过关，DeepSeek和豆包未能通过测试。

博主分别演示并点评各模型，对通过者无明显倾向，对DeepSeek和豆包客观描述其错误。

中立

Claude Opus 4.8仍然是当下最顶级的模型之一，但使用门槛高、价格昂贵且对网络要求严格。

博主总结时明确给出这一综合评价，既肯定其顶尖地位，也指出硬伤。

认同

阿里的Qwen 3.7 Max在测试中表现超乎预期，是五款国产模型中唯一能与Claude扳手腕的模型，价格不贵、无使用门槛，推荐国内用户主力使用。

博主明确表达对Qwen的推荐倾向，称其水平超出预期且综合表现最佳，积极建议国内用户采用。

认同

小米的模型能力不强，但API价格极便宜，特别适合大批量、高频次的文字处理场景，如接入沉浸式翻译等插件。

博主在承认其能力不足的同时，明确肯定其价格优势和适用场景，给出了具体使用建议。

不认同

Kimi在免费使用几次后会因高峰算力紧张自动切换为便宜模型，但博主质疑其在凌晨两点仍显示高峰时段的真实性。

博主直接表示“反正我是不太相信”，对Kimi的高峰时段提示持怀疑态度。

中立

Claude Opus 4.8每月需20美元会员，国产旗舰模型网页端基本免费，但Claude和DeepSeek官方均无Coding Plan。

基于实测和调查的客观价格情报，无主观评价。

中立

AI大模型更新很快，本次横评结果仅代表视频发布时的水平，下个月可能有不同结果。

博主提醒测评的时效性，属于事实性声明。