GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型？ — AI随风随风 | 国产大模型横评

中立

编程/代码能力

智谱5.2的上下文窗口为1兆（1M），支持high和max推理级别。

博主介绍模型基础参数信息。

中立

编程/代码能力

Kimi K2.7 Code上下文窗口为256K，远小于智谱5.2的1兆。

博主比较两款新发布模型的上下文长度。

认同

编程/代码能力

Kimi K2.7 Code相比K2.6有明显提升，尤其减少了过度思考，缩短了思考时间。

博主表示在实际测试中观察到思考时间明显减少，认为这是一个很大的改善。

中立

编程/代码能力

Kimi K2.7 Code与GPT 5.5和OPENSIVE 4.8仍有差距。

博主从参数对比表中得出该结论，认为在多个维度上仍落后于这两个国际模型。

中立

编程/代码能力

Kimi K2.7 Code可能是Kimi K3的前置模型。

博主推测，因其上下文仅256K且Kimi即将发布K3。

认同

编程/代码能力

在信件燃烧前端动画测试中，GPT 5.5效果最好，火焰、灰烬和背景均符合要求。

博主评价其右下角燃烧、火焰效果和灰烬都不错，背景符合提示词要求。

中立

编程/代码能力

在信件燃烧测试中，Opos 4.8火焰效果较差但燃烧轨迹正常，整体表现还可以。

博主认为燃烧轨迹正常，桌面背景也可，但火焰效果不如GPT 5.5。

认同

编程/代码能力

在信件燃烧测试中，Kimi K2.7 Code的效果与GPT 5.5相似，但燃烧轨迹不同，表现非常不错。

博主指出其燃烧效果及灰烬表现良好，在国内模型中属于最好。

不认同

编程/代码能力

智谱5.1在燃烧测试中火焰效果一般，与最新模型差距明显。

博主对比新老模型，指出5.1较为一般。

中立

编程/代码能力

智谱5.2的燃烧效果比5.1有很大进步，但出现了一个黑圈，整体稍逊于Kimi K2.7 Code。

博主认为进步明显，但黑圈问题导致比Kimi稍差。

不认同

编程/代码能力

千问3.7在燃烧测试中火焰颜色有问题，且纸张未完全烧完。

博主指出颜色异常和未烧完的缺陷。

不认同

编程/代码能力

MiniMax M3在燃烧测试中未从右下角开始燃烧，且未按真实路径燃烧，效果较差。

博主认为这完全违反了提示词要求，表现很差。

中立

编程/代码能力

小米模型在燃烧测试中没有从右下角开始燃烧，其他方面尚可。

博主指出起始位置错误，但其他部分还行。

不认同

编程/代码能力

DeepSeek V4在燃烧测试中效果像爆炸，表现不佳。

博主用“爆炸吗还是什么”形容，暗示效果失败。

中立

编程/代码能力

在后端商城测试中，MiniMax M3完成了一轮下单流程的前端展示，但提交订单报错，下单未完成，后台部分功能存在报错和缺失。

博主演示了加购、优惠券、地址新增等操作，但最终下单失败，后台加载出错、订单详情显示不全等，认为需要约五轮对话修复。

认同

编程/代码能力

千问3.7 max在后端商城测试中前端页面更舒服，下单流程通畅，优惠券能正常触发，后台功能完成度还可以。

博主展示了成功下单、优惠券使用，认为前端展示佳，后端完成度不错，但秒杀下单有bug，后台商品ID需手动输入。

中立

编程/代码能力

DeepSeek在后端商城测试中前端清爽，下单流程通顺，优惠券能正常触发，后台功能较齐全，但秒杀商品不显示、无法添加秒杀，个人中心功能缺失。

博主指出核心下单功能齐全，后台商品管理、订单操作正常，但强调了几个功能缺失的问题。

不认同

编程/代码能力

小米模型在后端测试中前端效果最差，经过优化仍不佳，下单流程中缺少地址新增入口、无优惠券中心，后台缺少商品规格、订单详情等，功能缺失较多。

博主描述其为所有模型中表现最不好，且多轮修复后仍如此，指出多项关键功能缺失。

认同

编程/代码能力

智谱5.2在后端测试中下单流程顺畅，优惠券正常触发，支付成功，订单细节可见，后台提供了唯一的数据图表展示，功能整体完整，仅缺少用户地址管理功能。

博主称赞其流程顺畅，后台有独特的数据图表，订单状态更新正常，秒杀商品可单独添加，仅指出地址管理缺失。

不认同

编程/代码能力

Kimi K2.7 Code在后端测试中立即购买报错无法继续，优惠券页面缺失，秒杀收货地址无增加入口，后台商品规格名称未显示，秒杀添加商品失败，功能完成度较低。

博主由于购买流程中断、多处功能缺失或异常，将其前后端完成度排在第四。

认同

编程/代码能力

Kimi K2.7 Code是国内模型中纯前端动画效果最好的。

博主在总结表格中将Kimi K2.7 Code的纯前端测试排在国内第一。

认同

编程/代码能力

千问3.7 max和智谱5.2的综合能力属于国产模型第一梯队，在本次测试中并列第一。

博主通过综合耗时、功能完成度、前后端表现等维度排名得出，两者各项指标均表现突出。

中立

编程/代码能力

Kimi K2.7 Code、MiniMax M3和DeepSeek V4 Pro三者综合能力相近，各有优劣。

博主在总结中认为它们差不多，处于同一梯队。

认同

编程/代码能力

当多轮对话复杂度上升时，具有1兆上下文的模型（如智谱5.2、MiniMax M3、DeepSeek V4）表现更好，更不容易触发对话压缩。

博主根据测试经验指出大上下文在多轮复杂任务中的优势，认为效果会更好。

中立

编程/代码能力

当前国产大模型已具备稳定运行至少一小时以上的能力。

博主在总结中作为整体评价提出，认为所有参与测试的模型表现都不错。

中立

编程/代码能力

本次测试结果仅代表个人单次测试，不具有权威性，同一案例多次测试结果可能不同。

博主强调测试的局限性，提醒观众注意非权威性。