AI随风随风：60 条观点汇总

参与共识

AI编程工具没有完美的唯一选择，应基于个人场景和需求来决定。AI编程工具怎么选 · 工具选择与推荐 Claude Code/Cloud使用顶级模型（Opus）需要较高订阅套餐，成本不菲。AI编程工具怎么选 · 定价与性价比千问3.7 Max是当前国产编程能力最强的模型之一国产大模型横评 · 编程/代码能力智谱GLM 5.1/5.2在国产模型中编程能力突出，逼近Claude国产大模型横评 · 编程/代码能力腾讯混元/元宝代码与开发能力差，多项测试垫底国产大模型横评 · 编程/代码能力 MiniMax M3频繁超时，稳定性问题严重国产大模型横评 · 模型稳定性与指令遵循长上下文能力在多轮复杂任务中表现更好国产大模型横评 · 上下文长度能力千问3.7 Max、DeepSeek V4 Pro处于国产第一梯队国产大模型横评 · 分级/排名体系 GLM 5.1/5.2处于国产第一梯队或接近第一梯队国产大模型横评 · 分级/排名体系

AI编程工具怎么选

查看完整分析 →

中立工具选择与推荐

本次AI编程工具排名基于五个方向：创新能力、代码搜索与索引、上下文组装压缩、AI调用工具流程、交互便捷性。

博主说明这是评价维度的标准。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

参与排名的工具均为博主亲自使用过的，未出现的工具不代表不好。

博主说明排名范围受限于个人使用经验。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

本次排名存在时效性，仅代表当前时间点的情况，之后工具会继续发展。

博主强调榜单会随工具更新而变化。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

每个人对AI编程工具的喜好不同，适合自己最重要。

博主承认主观偏好，认为个人适配性优先。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

腾讯CodeWhisperer集成了市面上各种AI编程工具的好用功能，是一个非常全面的工具。

它支持GPT系列模型、子代理、skills、记忆等。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

腾讯CodeWhisperer与小程序开发生态结合紧密，适合做小程序开发。

博主指出它对小程序开发者是不错的选择。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

Kilo适合规范驱动从零到一开发，但不适合一到N的迭代。

Spec模式过重，普通对话又不够详细，导致迭代时处于尴尬位置。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Client和Low Code对接各种API，交互和prome模式不错。

博主认为它们非常不错。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Open Code是开源client式编程工具，在GitHub上有40多k的star，是明日之星。

它有很多功能，建议开发者使用。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

WindSurf发展不温不火，整体中规中矩。

博主评价其现状没有突出亮点也没有明显短板。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

WindSurf的Code Map功能可以快速分析老项目代码结构，找到核心逻辑流程。

这个功能非常适合分析老项目。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

WindSurf性价比不错，月费15美元提供500次请求，可使用多种cloud最新模型。

价格合理，模型覆盖广，还有自己的SWE底层模型。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

J工具支持Spec模式，只出文档不改变代码，并支持Subagents和Skills。

这是它与Kilo的差异点，功能丰富。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

J的交互界面是所有终端中最清晰的，颜色和字体分布清楚。

博主基于个人使用体验评价。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

J可以顺畅使用Dre、智谱、Minimax等模型。

如果不喜欢Claude Code，可以用J搭配这些模型。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Tree有庞大的用户基础，且较早推出Solo模式，实现零到一完整开发流程集成。

在当时还没有其他工具能做到整个流程嵌在一个工具里。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Tree性价比非常高，支持Gemini 3 Pro和GPT系列模型，整体效果不差于之前有Claude模型时。

模型支持好，效果未因Claude断供而明显下降。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

不认同工具选择与推荐

Tree普通模式对话因上下文长度限制效果不佳，Max模式每次对话消耗十几次请求，总次数很快用完，不划算。

在性价比和解决问题之间没有找到平衡的中间形态。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Warp不仅是出色的AI编程工具，还是好用的终端命令行工具，可保存终端命令并一键唤起执行。

博主认为它集AI编程与终端便利性于一体。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Cursor的界面交互、Tab功能以及Debug模式、浏览器设计模式等新概念，引领着AI编程方向。

它在IDE和AI编程体验上持续创新，生态建立得好。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Augmented Code是目前做大项目表现最好的AI编程工具，拥有最强大的代码搜索索引能力。

博主认为其代码索引和上下文能力突出。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Augmented Code已将上下文MCP能力开放给其他AI编程工具直接使用。

主动开放生态，让其他工具也能受益。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

不认同工具选择与推荐

Augmented Code的token消耗成本太高，导致排名下调。

高成本是其明显缺点。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Google Antigravity性价比高，可用教育账号以90多美元使用一年，并支持Gemini 3 Pro和Ours，每日重置。

价格低，模型支持好，使用限制宽松。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Antigravity是在成熟编程工具Mini Solve基础上迭代而成，较为成熟，拥有Playground、Agent Manager等特色功能。

由经验丰富的团队开发，功能丰富且稳定。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Antigravity集成了Google的Nano Brando，可在对话中生成图片如logo，并拥有浏览器debug模式。

这些功能增添了趣味性和实用性。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

不认同工具选择与推荐

Code X作为编程工具本身缺乏创新特色功能，只是追随者。

没有像skills、sub agents等创新功能，仅满足普通对话需求。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

GPT-5.2或5.5系列模型与Code X结合能发挥最好效果，因此把Code X排在S-级。

强大的模型能力弥补了工具本身的不足。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Claude Code已建立起完整生态，其Agents和Skills成为其他AI编程工具学习的创新。

它不断迭代，引领了AI编程工具的功能方向。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Claude Code不仅适用于编程，也可用于写作、自媒体运营等其他领域。

其Skill生态让工具的使用场景大幅扩展。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Claude Code通过客户端CCM即可对接国内模型，无需付费会员，只要模型支持Anthropic协议。

相比一些工具限制，它的开放性和灵活性更好。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

认同工具选择与推荐

Claude Code虽然是终端命令行工具，但使用起来不会有陌生感。

易用性高，降低了使用门槛。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

博主提供了所有提及的AI编程工具的官网链接。

供观众自行查看和下载。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

中立工具选择与推荐

本次排名仅基于博主个人使用感受，不代表权威。

博主自述排名的非权威性和主观性。

来源：AI编程工具实战排名，谁是最好用的AI编程工具

国产大模型横评

查看完整分析 →

中立编程/代码能力

智谱5.2的上下文窗口为1兆（1M），支持high和max推理级别。

博主介绍模型基础参数信息。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

Kimi K2.7 Code上下文窗口为256K，远小于智谱5.2的1兆。

博主比较两款新发布模型的上下文长度。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

Kimi K2.7 Code相比K2.6有明显提升，尤其减少了过度思考，缩短了思考时间。

博主表示在实际测试中观察到思考时间明显减少，认为这是一个很大的改善。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

Kimi K2.7 Code与GPT 5.5和OPENSIVE 4.8仍有差距。

博主从参数对比表中得出该结论，认为在多个维度上仍落后于这两个国际模型。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

Kimi K2.7 Code可能是Kimi K3的前置模型。

博主推测，因其上下文仅256K且Kimi即将发布K3。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

在信件燃烧前端动画测试中，GPT 5.5效果最好，火焰、灰烬和背景均符合要求。

博主评价其右下角燃烧、火焰效果和灰烬都不错，背景符合提示词要求。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

在信件燃烧测试中，Opos 4.8火焰效果较差但燃烧轨迹正常，整体表现还可以。

博主认为燃烧轨迹正常，桌面背景也可，但火焰效果不如GPT 5.5。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

在信件燃烧测试中，Kimi K2.7 Code的效果与GPT 5.5相似，但燃烧轨迹不同，表现非常不错。

博主指出其燃烧效果及灰烬表现良好，在国内模型中属于最好。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

智谱5.1在燃烧测试中火焰效果一般，与最新模型差距明显。

博主对比新老模型，指出5.1较为一般。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

智谱5.2的燃烧效果比5.1有很大进步，但出现了一个黑圈，整体稍逊于Kimi K2.7 Code。

博主认为进步明显，但黑圈问题导致比Kimi稍差。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

千问3.7在燃烧测试中火焰颜色有问题，且纸张未完全烧完。

博主指出颜色异常和未烧完的缺陷。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

MiniMax M3在燃烧测试中未从右下角开始燃烧，且未按真实路径燃烧，效果较差。

博主认为这完全违反了提示词要求，表现很差。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

小米模型在燃烧测试中没有从右下角开始燃烧，其他方面尚可。

博主指出起始位置错误，但其他部分还行。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

DeepSeek V4在燃烧测试中效果像爆炸，表现不佳。

博主用“爆炸吗还是什么”形容，暗示效果失败。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

在后端商城测试中，MiniMax M3完成了一轮下单流程的前端展示，但提交订单报错，下单未完成，后台部分功能存在报错和缺失。

博主演示了加购、优惠券、地址新增等操作，但最终下单失败，后台加载出错、订单详情显示不全等，认为需要约五轮对话修复。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

千问3.7 max在后端商城测试中前端页面更舒服，下单流程通畅，优惠券能正常触发，后台功能完成度还可以。

博主展示了成功下单、优惠券使用，认为前端展示佳，后端完成度不错，但秒杀下单有bug，后台商品ID需手动输入。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

DeepSeek在后端商城测试中前端清爽，下单流程通顺，优惠券能正常触发，后台功能较齐全，但秒杀商品不显示、无法添加秒杀，个人中心功能缺失。

博主指出核心下单功能齐全，后台商品管理、订单操作正常，但强调了几个功能缺失的问题。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

小米模型在后端测试中前端效果最差，经过优化仍不佳，下单流程中缺少地址新增入口、无优惠券中心，后台缺少商品规格、订单详情等，功能缺失较多。

博主描述其为所有模型中表现最不好，且多轮修复后仍如此，指出多项关键功能缺失。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

智谱5.2在后端测试中下单流程顺畅，优惠券正常触发，支付成功，订单细节可见，后台提供了唯一的数据图表展示，功能整体完整，仅缺少用户地址管理功能。

博主称赞其流程顺畅，后台有独特的数据图表，订单状态更新正常，秒杀商品可单独添加，仅指出地址管理缺失。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

不认同编程/代码能力

Kimi K2.7 Code在后端测试中立即购买报错无法继续，优惠券页面缺失，秒杀收货地址无增加入口，后台商品规格名称未显示，秒杀添加商品失败，功能完成度较低。

博主由于购买流程中断、多处功能缺失或异常，将其前后端完成度排在第四。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

Kimi K2.7 Code是国内模型中纯前端动画效果最好的。

博主在总结表格中将Kimi K2.7 Code的纯前端测试排在国内第一。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

千问3.7 max和智谱5.2的综合能力属于国产模型第一梯队，在本次测试中并列第一。

博主通过综合耗时、功能完成度、前后端表现等维度排名得出，两者各项指标均表现突出。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

Kimi K2.7 Code、MiniMax M3和DeepSeek V4 Pro三者综合能力相近，各有优劣。

博主在总结中认为它们差不多，处于同一梯队。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

认同编程/代码能力

当多轮对话复杂度上升时，具有1兆上下文的模型（如智谱5.2、MiniMax M3、DeepSeek V4）表现更好，更不容易触发对话压缩。

博主根据测试经验指出大上下文在多轮复杂任务中的优势，认为效果会更好。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

当前国产大模型已具备稳定运行至少一小时以上的能力。

博主在总结中作为整体评价提出，认为所有参与测试的模型表现都不错。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？

中立编程/代码能力

本次测试结果仅代表个人单次测试，不具有权威性，同一案例多次测试结果可能不同。

博主强调测试的局限性，提醒观众注意非权威性。

来源：GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？