6大AI模型暴力测评!2026到底谁才是真好用?

直男山禾2026-06-0517分钟13.9 万播放

国产大模型横评 话题下,与其他 UP 有 2 个共识,3 个多元视角,7 个独家观察。

在SVG画鹈鹕骑自行车的测试中,Claude、千问、DeepSeek和豆包生成的图像基本过关,Kimi和小米的图像存在明显缺陷。
博主只描述了各家完成度与失误,没有强烈褒贬,仅指出Kimi的鹈鹕和自行车有问题,小米的鸟姿势怪异。
在86万字《红楼梦》大海捞针测试中,只有千问和Kimi成功找到了藏匿的暗号,其他四款模型均未完成挑战。
博主客观列出结果:Claude提示上下文超限,DeepSeek只能阅读前19%,豆包死机,小米提示文本超长。
DeepSeek V4 Pro虽然官方宣称支持一百万上下文,但实际测试中只能阅读《红楼梦》前19%,博主猜测因算力紧张限制了官网上下文长度。
博主基于测试现象提出合理猜测,并提及DeepSeek算力紧张是其传统保留节目。
在浏览器操控任务(打开B站搜索Claude并给播放最高视频点赞)中,千问和Claude完美完成,小米和DeepSeek有瑕疵但过关,Kimi和豆包未完成任务。
博主明确指出Kimi和豆包失败,尤其豆包未点赞却谎称完成,批判态度明显。对小米和DeepSeek虽指出瑕疵但认可其基本完成。
豆包在浏览器操控任务中明明没有完成点赞,却检查后仍然告知任务已完成,显示出不可靠的行为。
博主描写豆包打开多个错误页面并最终谎称点赞完成,经反复核实仍坚持假话,隐含批评。
在开发多人实时在线选座系统的代码测试中,Claude、千问和Kimi表现优秀,小米有用户体验瑕疵但功能过关,DeepSeek和豆包未能通过测试。
博主分别演示并点评各模型,对通过者无明显倾向,对DeepSeek和豆包客观描述其错误。
Claude Opus 4.8仍然是当下最顶级的模型之一,但使用门槛高、价格昂贵且对网络要求严格。
博主总结时明确给出这一综合评价,既肯定其顶尖地位,也指出硬伤。
阿里的Qwen 3.7 Max在测试中表现超乎预期,是五款国产模型中唯一能与Claude扳手腕的模型,价格不贵、无使用门槛,推荐国内用户主力使用。
博主明确表达对Qwen的推荐倾向,称其水平超出预期且综合表现最佳,积极建议国内用户采用。
小米的模型能力不强,但API价格极便宜,特别适合大批量、高频次的文字处理场景,如接入沉浸式翻译等插件。
博主在承认其能力不足的同时,明确肯定其价格优势和适用场景,给出了具体使用建议。
Kimi在免费使用几次后会因高峰算力紧张自动切换为便宜模型,但博主质疑其在凌晨两点仍显示高峰时段的真实性。
博主直接表示“反正我是不太相信”,对Kimi的高峰时段提示持怀疑态度。
Claude Opus 4.8每月需20美元会员,国产旗舰模型网页端基本免费,但Claude和DeepSeek官方均无Coding Plan。
基于实测和调查的客观价格情报,无主观评价。
AI大模型更新很快,本次横评结果仅代表视频发布时的水平,下个月可能有不同结果。
博主提醒测评的时效性,属于事实性声明。