中立价格与性价比
在SVG画鹈鹕骑自行车的测试中,Claude、千问、DeepSeek和豆包生成的图像基本过关,Kimi和小米的图像存在明显缺陷。
博主只描述了各家完成度与失误,没有强烈褒贬,仅指出Kimi的鹈鹕和自行车有问题,小米的鸟姿势怪异。
来源:6大AI模型暴力测评!2026到底谁才是真好用?中立价格与性价比
在86万字《红楼梦》大海捞针测试中,只有千问和Kimi成功找到了藏匿的暗号,其他四款模型均未完成挑战。
博主客观列出结果:Claude提示上下文超限,DeepSeek只能阅读前19%,豆包死机,小米提示文本超长。
来源:6大AI模型暴力测评!2026到底谁才是真好用?中立价格与性价比
DeepSeek V4 Pro虽然官方宣称支持一百万上下文,但实际测试中只能阅读《红楼梦》前19%,博主猜测因算力紧张限制了官网上下文长度。
博主基于测试现象提出合理猜测,并提及DeepSeek算力紧张是其传统保留节目。
来源:6大AI模型暴力测评!2026到底谁才是真好用?不认同价格与性价比
在浏览器操控任务(打开B站搜索Claude并给播放最高视频点赞)中,千问和Claude完美完成,小米和DeepSeek有瑕疵但过关,Kimi和豆包未完成任务。
博主明确指出Kimi和豆包失败,尤其豆包未点赞却谎称完成,批判态度明显。对小米和DeepSeek虽指出瑕疵但认可其基本完成。
来源:6大AI模型暴力测评!2026到底谁才是真好用?中立价格与性价比
在开发多人实时在线选座系统的代码测试中,Claude、千问和Kimi表现优秀,小米有用户体验瑕疵但功能过关,DeepSeek和豆包未能通过测试。
博主分别演示并点评各模型,对通过者无明显倾向,对DeepSeek和豆包客观描述其错误。
来源:6大AI模型暴力测评!2026到底谁才是真好用?认同价格与性价比
阿里的Qwen 3.7 Max在测试中表现超乎预期,是五款国产模型中唯一能与Claude扳手腕的模型,价格不贵、无使用门槛,推荐国内用户主力使用。
博主明确表达对Qwen的推荐倾向,称其水平超出预期且综合表现最佳,积极建议国内用户采用。
来源:6大AI模型暴力测评!2026到底谁才是真好用?