Kimi K 2.5 是国内第一个将 1T 参数规模和多模态能力融合在一起的模型。
博主陈述事实,认为这是里程碑,此前国产模型不具备多模态且未站上 1T。
Step 3.5 Flash 推理速度极快,token 速度可达 200-400 token/秒,适合密集 Agent 任务。
博主指出其速度优势让它成为国内最快的模型公司,并在 Open Router 上免费用量达榜一。
Claude Opus 4.6 在文学、哲学、编程、中文表达和反思等方面达到全新台阶,是让人感到恐怖的模型。
博主认为这是里程碑,任务执行平稳,能指出人的思维漏洞。
GLM-5 的发布意味着国产模型首次站上真正可编程的水准。
博主指出虽然有思维链冗长问题,但它在向 Claude 4.5 逼近,是国产重大突破。
豆包 C 2.0 Pro 在开发能力上表现一般,幻觉率高,指令遵循不够严谨。
博主实测发现其只把界面框架做好,内部功能多是假的,不推荐开发使用。
千问 3.5 Plus 视觉和文本编程能力综合,但未与 Kimi K 2.5 拉开明显差距,生态位尴尬。
博主认为其编程能力不能击败 GLM-5,后续大模型定价高而不受欢迎。
Claude 4.6 的成本是 Opus 4.6 的五分之一,能力成为国产模型难以企及的高墙。
博主给出事实对比,强调平价和高能力的结合。
Gemini 3.1 Pro 推理能力提升,但幻觉偏高,输出情绪价值,世界知识相比 3.0 Pro 有所下降。
博主指其在多轮对话后容易乱说,且世界知识缩减导致用户流失。
Gemini 系列在前端开发和设计绘图上具有明显优势。
博主认为得益于谷歌的优质官网结构数据,前端能力非常好。
GPT-5.4 比 GPT-5.3 Codex 速度更快、质量更好,但价格更高,并开始全面封堵低价套餐。
博主给出事实对比,说明涨价和封堵措施导致用量减少。
小米 Mimo V2 Pro 是国产首个支持多模态和超大上下文的模型,打开国产先河。
博主肯定其颠覆性,没想到小米能做模型。
MiniMax M2.7 实现了能力和尺寸的平衡,token plan 量大管饱,受到开发者欢迎。
博主称其 agent 任务完全够用,用量根本用不完。
Cursor 未经许可将 Kimi K 2.5 作为底模用于 Composer 系列后训练。
博主陈述当时爆出的争议事件。
Claude 系列曾出现额度消耗异常,五小时限额迅速用尽,存在注入缓存等嫌疑。
博主指出大量用户抱怨额度消耗过快,口碑受影响。
千问 3.6 Plus 正式版达百万上下文并支持多模态,但编程能力被 GLM-5.1 超越,迅速淡出开发者视野。
博主称其从免费转付费后,大模型定价让人用不起,不再有竞争力。
Codex 从原计费方式转为 token 计费,导致开发者消耗大幅加速。
博主陈述事实,说明很多人被迫转向更贵的 Pro 账户。
GLM-5.1 在 SWE-bench Pro 达到开源第一,解决了思维链不收敛问题,任务执行稳健。
博主认为它的编程能力逼近 Claude 4.6 刚出时的水准,供不应求。
Claude 4.7 中文表达能力显著减弱,指令遵循不如 4.6 稳健,且换用新 tokenizer 导致消耗增加,变相涨价约 35%。
博主指出其类似 GPT 蒸馏的机械感,加上变相涨价,口碑大幅下滑。
Kimi K 2.6 主打 agent 集群,但在实际开发中被 GLM-5.1 拉开差距,仅在画图和前端上仍有优势。
博主认为其 agent 集群功能使用度不高,编程不如 GLM-5.1 稳定。
GPT-5.5 是截止当时最一线的模型,稳定性和逻辑连贯能力再次深化,处于评测榜首级别。
博主指出其虽价格高,但在能力榜单上仍领先,直到后面被其它模型暂时超过。
DeepSeek V4 首次具备百万上下文,开启 max 思考时能达到 Claude Opus 4.5 的稳定交付水平,但未达到 4.6。
博主称其没有多模态,复杂问题上不及 4.6,但价格极低,被动缓存命中率超 93%,成本优势巨大。
小米 Mimo V2.5 具备百万上下文和多模态,但其买断制 token 策略让用户很快用完,口碑受损。
博主称其定价像欺诈性营销,用户舍不得用,导致模型不温不火。
Cloud Code 限额翻倍后,个人用户即使同时开发五六个项目也几乎用不完。
博主提到马斯克让渡算力给 Anthropic,官方大幅提升周限额和倍数。
千问 3.7 Max 能力虽强但价格过于昂贵,开发者宁愿使用国外 Claude 系列。
博主认为其价格导致无人问津,团队内没有人真正想用。
DeepSeek V4 Pro 原本限时优惠变为永久降价。
博主陈述事实,引发新一波 DeepSeek 热潮。
小米 Mimo V2.5 Pro 降价 99%,价格降至与 V4 Pro 相当,才开始具备性价比和可用性。
博主指出降价后中等强度开发可承受,但用量控制机制未变,仍非最优选。
Claude 4.8 依然存在中文表达能力差的问题,口碑延续 4.7 的负面评价。
博主认为它挤牙膏升级,依然像 GPT 的表达形态,用户多滞留在 4.6。
MiniMax M3 发布后,前端能力可达 Claude Opus 4.6-4.7 之间水平,编程在 GLM-5 到 5.1 之间,成为多功能小水桶。
博主认为其拥有原生多模态和百万上下文,知识密度高,token plan 调整后获得好评。
Claude Fibo 5 的说话风格和能力恢复并超越 4.6,但因美国禁令被全球下架。
博主称其是 4.7/4.8 失败迭代后的成功模型,但被行政手段切断。
Kimi K 2.7 未提供百万上下文,相比已跟进百万上下文的竞品显得落后。
博主指出 DeepSeek、MiniMax、GLM 等均已支持百万上下文,Kimi 仍未补齐。
GLM-5.2 编码能力进一步提升,可与 Claude 4.7 较量,但推理时间极长,通过时间换准确率。
博主肯定其编码国产领跑,但指出无多模态且推理慢,成本不敏感时推荐国外模型。
当前编程能力榜单上,国外模型仍领头,GLM-5.2 是唯一冲到前列的国产模型。
博主总结榜单情况,指出 Cloud Fibo 5 被禁,MiniMax M3 和 V4 Pro 也上榜。
Anthropic 的视觉识别精度全球最高,上传 UI 设计图可仿出 80% 水平。
博主认为这是其在视觉能力上的巨大优势。
OpenAI 的 GPT 系列是最博学、代码最稳健的模型,但中文 AI 味儿浓,且不愿承认自己不知道。
博主既肯定其深度和稳健,又批评其保守和误导性。
谷歌 Gemini 拥有全模态能力(视频、音频等)和强前端能力,但幻觉高、编程逻辑弱、世界知识下降。
博主列出其优缺点并置,说明情绪价值高但诚实度不足。
DeepSeek 价格极低、全模型开源、缓存命中率高,但编程能力与主流有差距且不支持多模态。
博主指出其性价比无出其右,但功能上有明显短板。
智谱 GLM 系列是国产唯一在编程领域领跑的系列,但思维链冗长、无多模态、订阅价格不断上涨。
博主认为从 5.1 起编程能力断层领先,但速度和定价问题突出。
Kimi 系列搜索能力和工具调用能力强,适合知识整理与绘画,但无百万上下文,计费不友好。
博主表示其中规中矩,有合适场景可推荐,但开发主流程不如竞品。
MiniMax M3 在前端、多模态和上下文长度上补齐短板,成为无明显短板的小水桶模型。
博主认为其改进后的 token plan 获得认可,是目前可正常使用的选择。
千问大模型因价格过高无人使用,但其小尺寸开源模型(如 3.6-27B)非常值得推荐。
博主将千问的大模型与小模型分开评价,小模型甚至可以叫板 V4 Flash。
豆包在语音聊天方面体验很好,但开发上幻觉率居高不下,即将从免费转为付费,暂不推荐开发使用。
博主明确不建议用于编程,需要进一步观察付费后模型品质。
海外模型 API 输出价格昂贵,如 Claude Sonnet 4.6 每百万输出超百元,最便宜的 Haiku 也需三十多元。
博主引用价格数据,说明纯 API 直用成本高,与国内模型形成对比。
国内模型中最贵的 GLM-5.2 输出价仍低于海外最便宜的模型输出价。
博主通过价格对比指出成本敏感场景转向国内模型的必然性。
海外模型想要获得良好体验,每月订阅中高档套餐需要 100-200 美元(约 500-1400 元)。
博主统计了 Anthropic、OpenAI、Google 的订阅档次,给出价格区间。
国产模型中档套餐每月仅需几百元即可满足非高强度开发,或通过闲鱼合租降低成本。
博主提供成本友好的国内使用方案,DeepSeek 更可通过 API 高缓存进一步压缩价格。
当前 API 价差巨大,从最贵的海外模型到最便宜的 DeepSeek V4 Flash 可达 642 倍。
博主以此数据警示开发者必须谨慎选择模型档位。
隐性涨价(如修改 tokenizer、压缩 token plan 用量)已成为行业常态。
博主列举 Claude、Google、GLM、MiniMax 等案例,认为推理成本上升导致厂商普遍如此。
五小时滑动窗口、七天时限窗口等用量控制已成行业主流,难以改变。
博主指出这些机制是厂商控制成本的主要方式,开发者需要适应。
单个 Agent 的 token 消耗量稳步增加,多数用户每日消耗已稳定过亿 token。
博主认为任务复杂度提高导致消耗增长,进一步凸显成本控制的重要性。
中文日常聊天与办公推荐使用 Kimi Q 2.7,因其免费、搜索精准、擅长知识整理和绘画。
博主结合其低成本、功能和上下文长度等特点给出具体场景推荐。
语音聊天场景仍推豆包,但开发不推荐。
博主区分使用场景,指出豆包聊天尚可,编程不行。
通义千问因接入阿里生态,适合查询地图、距离、机票等生活场景。
博主认可其在阿里生态内的便利性。
若需要情绪价值和世界知识,目前仍推荐使用 Gemini(尽管其世界知识有所下滑)。
博主认为其独特的多模态文档处理能力和全球知识仍是优势。
成本敏感的开发环境推荐使用 DeepSeek 或 GLM/Mimo 的 coding plan,因其极低价格和够用的量。
博主建议成本优先时用 DeepSeek 或国产 coding plan,必要时灵活切换。
质量敏感的开发者应使用 Claude 4.8/Fibo 5 + Claude Code 或 GPT-5.5 + Codex CLI 的组合。
博主认为这是当前没有疑问的最佳组合,适合不计成本但要求高质交付的场景。