← 全部话题

圣徒城的小诺

1 个话题1 个视频55 条观点
认同 19
不认同 10
中立 26

参与共识

国产大模型横评

查看完整分析 →
中立价格与性价比
Kimi K 2.5 是国内第一个将 1T 参数规模和多模态能力融合在一起的模型。
博主陈述事实,认为这是里程碑,此前国产模型不具备多模态且未站上 1T。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Step 3.5 Flash 推理速度极快,token 速度可达 200-400 token/秒,适合密集 Agent 任务。
博主指出其速度优势让它成为国内最快的模型公司,并在 Open Router 上免费用量达榜一。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Claude Opus 4.6 在文学、哲学、编程、中文表达和反思等方面达到全新台阶,是让人感到恐怖的模型。
博主认为这是里程碑,任务执行平稳,能指出人的思维漏洞。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
GLM-5 的发布意味着国产模型首次站上真正可编程的水准。
博主指出虽然有思维链冗长问题,但它在向 Claude 4.5 逼近,是国产重大突破。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
豆包 C 2.0 Pro 在开发能力上表现一般,幻觉率高,指令遵循不够严谨。
博主实测发现其只把界面框架做好,内部功能多是假的,不推荐开发使用。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
千问 3.5 Plus 视觉和文本编程能力综合,但未与 Kimi K 2.5 拉开明显差距,生态位尴尬。
博主认为其编程能力不能击败 GLM-5,后续大模型定价高而不受欢迎。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
Claude 4.6 的成本是 Opus 4.6 的五分之一,能力成为国产模型难以企及的高墙。
博主给出事实对比,强调平价和高能力的结合。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
Gemini 3.1 Pro 推理能力提升,但幻觉偏高,输出情绪价值,世界知识相比 3.0 Pro 有所下降。
博主指其在多轮对话后容易乱说,且世界知识缩减导致用户流失。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Gemini 系列在前端开发和设计绘图上具有明显优势。
博主认为得益于谷歌的优质官网结构数据,前端能力非常好。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
GPT-5.4 比 GPT-5.3 Codex 速度更快、质量更好,但价格更高,并开始全面封堵低价套餐。
博主给出事实对比,说明涨价和封堵措施导致用量减少。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
小米 Mimo V2 Pro 是国产首个支持多模态和超大上下文的模型,打开国产先河。
博主肯定其颠覆性,没想到小米能做模型。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
MiniMax M2.7 实现了能力和尺寸的平衡,token plan 量大管饱,受到开发者欢迎。
博主称其 agent 任务完全够用,用量根本用不完。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
Cursor 未经许可将 Kimi K 2.5 作为底模用于 Composer 系列后训练。
博主陈述当时爆出的争议事件。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
Claude 系列曾出现额度消耗异常,五小时限额迅速用尽,存在注入缓存等嫌疑。
博主指出大量用户抱怨额度消耗过快,口碑受影响。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
千问 3.6 Plus 正式版达百万上下文并支持多模态,但编程能力被 GLM-5.1 超越,迅速淡出开发者视野。
博主称其从免费转付费后,大模型定价让人用不起,不再有竞争力。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
Codex 从原计费方式转为 token 计费,导致开发者消耗大幅加速。
博主陈述事实,说明很多人被迫转向更贵的 Pro 账户。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
GLM-5.1 在 SWE-bench Pro 达到开源第一,解决了思维链不收敛问题,任务执行稳健。
博主认为它的编程能力逼近 Claude 4.6 刚出时的水准,供不应求。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
Claude 4.7 中文表达能力显著减弱,指令遵循不如 4.6 稳健,且换用新 tokenizer 导致消耗增加,变相涨价约 35%。
博主指出其类似 GPT 蒸馏的机械感,加上变相涨价,口碑大幅下滑。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
Kimi K 2.6 主打 agent 集群,但在实际开发中被 GLM-5.1 拉开差距,仅在画图和前端上仍有优势。
博主认为其 agent 集群功能使用度不高,编程不如 GLM-5.1 稳定。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
GPT-5.5 是截止当时最一线的模型,稳定性和逻辑连贯能力再次深化,处于评测榜首级别。
博主指出其虽价格高,但在能力榜单上仍领先,直到后面被其它模型暂时超过。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
DeepSeek V4 首次具备百万上下文,开启 max 思考时能达到 Claude Opus 4.5 的稳定交付水平,但未达到 4.6。
博主称其没有多模态,复杂问题上不及 4.6,但价格极低,被动缓存命中率超 93%,成本优势巨大。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
小米 Mimo V2.5 具备百万上下文和多模态,但其买断制 token 策略让用户很快用完,口碑受损。
博主称其定价像欺诈性营销,用户舍不得用,导致模型不温不火。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Cloud Code 限额翻倍后,个人用户即使同时开发五六个项目也几乎用不完。
博主提到马斯克让渡算力给 Anthropic,官方大幅提升周限额和倍数。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
千问 3.7 Max 能力虽强但价格过于昂贵,开发者宁愿使用国外 Claude 系列。
博主认为其价格导致无人问津,团队内没有人真正想用。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
DeepSeek V4 Pro 原本限时优惠变为永久降价。
博主陈述事实,引发新一波 DeepSeek 热潮。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
小米 Mimo V2.5 Pro 降价 99%,价格降至与 V4 Pro 相当,才开始具备性价比和可用性。
博主指出降价后中等强度开发可承受,但用量控制机制未变,仍非最优选。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
Claude 4.8 依然存在中文表达能力差的问题,口碑延续 4.7 的负面评价。
博主认为它挤牙膏升级,依然像 GPT 的表达形态,用户多滞留在 4.6。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
MiniMax M3 发布后,前端能力可达 Claude Opus 4.6-4.7 之间水平,编程在 GLM-5 到 5.1 之间,成为多功能小水桶。
博主认为其拥有原生多模态和百万上下文,知识密度高,token plan 调整后获得好评。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Claude Fibo 5 的说话风格和能力恢复并超越 4.6,但因美国禁令被全球下架。
博主称其是 4.7/4.8 失败迭代后的成功模型,但被行政手段切断。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
Kimi K 2.7 未提供百万上下文,相比已跟进百万上下文的竞品显得落后。
博主指出 DeepSeek、MiniMax、GLM 等均已支持百万上下文,Kimi 仍未补齐。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
GLM-5.2 编码能力进一步提升,可与 Claude 4.7 较量,但推理时间极长,通过时间换准确率。
博主肯定其编码国产领跑,但指出无多模态且推理慢,成本不敏感时推荐国外模型。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
当前编程能力榜单上,国外模型仍领头,GLM-5.2 是唯一冲到前列的国产模型。
博主总结榜单情况,指出 Cloud Fibo 5 被禁,MiniMax M3 和 V4 Pro 也上榜。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
Anthropic 的视觉识别精度全球最高,上传 UI 设计图可仿出 80% 水平。
博主认为这是其在视觉能力上的巨大优势。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
OpenAI 的 GPT 系列是最博学、代码最稳健的模型,但中文 AI 味儿浓,且不愿承认自己不知道。
博主既肯定其深度和稳健,又批评其保守和误导性。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
谷歌 Gemini 拥有全模态能力(视频、音频等)和强前端能力,但幻觉高、编程逻辑弱、世界知识下降。
博主列出其优缺点并置,说明情绪价值高但诚实度不足。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
DeepSeek 价格极低、全模型开源、缓存命中率高,但编程能力与主流有差距且不支持多模态。
博主指出其性价比无出其右,但功能上有明显短板。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
智谱 GLM 系列是国产唯一在编程领域领跑的系列,但思维链冗长、无多模态、订阅价格不断上涨。
博主认为从 5.1 起编程能力断层领先,但速度和定价问题突出。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
Kimi 系列搜索能力和工具调用能力强,适合知识整理与绘画,但无百万上下文,计费不友好。
博主表示其中规中矩,有合适场景可推荐,但开发主流程不如竞品。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
MiniMax M3 在前端、多模态和上下文长度上补齐短板,成为无明显短板的小水桶模型。
博主认为其改进后的 token plan 获得认可,是目前可正常使用的选择。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
千问大模型因价格过高无人使用,但其小尺寸开源模型(如 3.6-27B)非常值得推荐。
博主将千问的大模型与小模型分开评价,小模型甚至可以叫板 V4 Flash。
来源:2026上半年大模型盘点:选对你的AI底座
不认同价格与性价比
豆包在语音聊天方面体验很好,但开发上幻觉率居高不下,即将从免费转为付费,暂不推荐开发使用。
博主明确不建议用于编程,需要进一步观察付费后模型品质。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
海外模型 API 输出价格昂贵,如 Claude Sonnet 4.6 每百万输出超百元,最便宜的 Haiku 也需三十多元。
博主引用价格数据,说明纯 API 直用成本高,与国内模型形成对比。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
国内模型中最贵的 GLM-5.2 输出价仍低于海外最便宜的模型输出价。
博主通过价格对比指出成本敏感场景转向国内模型的必然性。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
海外模型想要获得良好体验,每月订阅中高档套餐需要 100-200 美元(约 500-1400 元)。
博主统计了 Anthropic、OpenAI、Google 的订阅档次,给出价格区间。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
国产模型中档套餐每月仅需几百元即可满足非高强度开发,或通过闲鱼合租降低成本。
博主提供成本友好的国内使用方案,DeepSeek 更可通过 API 高缓存进一步压缩价格。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
当前 API 价差巨大,从最贵的海外模型到最便宜的 DeepSeek V4 Flash 可达 642 倍。
博主以此数据警示开发者必须谨慎选择模型档位。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
隐性涨价(如修改 tokenizer、压缩 token plan 用量)已成为行业常态。
博主列举 Claude、Google、GLM、MiniMax 等案例,认为推理成本上升导致厂商普遍如此。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
五小时滑动窗口、七天时限窗口等用量控制已成行业主流,难以改变。
博主指出这些机制是厂商控制成本的主要方式,开发者需要适应。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
单个 Agent 的 token 消耗量稳步增加,多数用户每日消耗已稳定过亿 token。
博主认为任务复杂度提高导致消耗增长,进一步凸显成本控制的重要性。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
中文日常聊天与办公推荐使用 Kimi Q 2.7,因其免费、搜索精准、擅长知识整理和绘画。
博主结合其低成本、功能和上下文长度等特点给出具体场景推荐。
来源:2026上半年大模型盘点:选对你的AI底座
中立价格与性价比
语音聊天场景仍推豆包,但开发不推荐。
博主区分使用场景,指出豆包聊天尚可,编程不行。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
通义千问因接入阿里生态,适合查询地图、距离、机票等生活场景。
博主认可其在阿里生态内的便利性。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
若需要情绪价值和世界知识,目前仍推荐使用 Gemini(尽管其世界知识有所下滑)。
博主认为其独特的多模态文档处理能力和全球知识仍是优势。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
成本敏感的开发环境推荐使用 DeepSeek 或 GLM/Mimo 的 coding plan,因其极低价格和够用的量。
博主建议成本优先时用 DeepSeek 或国产 coding plan,必要时灵活切换。
来源:2026上半年大模型盘点:选对你的AI底座
认同价格与性价比
质量敏感的开发者应使用 Claude 4.8/Fibo 5 + Claude Code 或 GPT-5.5 + Codex CLI 的组合。
博主认为这是当前没有疑问的最佳组合,适合不计成本但要求高质交付的场景。
来源:2026上半年大模型盘点:选对你的AI底座