Home/AI随风随风/国产大模型横评

国产大模型横评

AI随风随风 · 26 Claims

编程/代码能力
Neutral
智谱5.2的上下文窗口为1兆(1M),支持high和max推理级别。
博主介绍模型基础参数信息。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
Kimi K2.7 Code上下文窗口为256K,远小于智谱5.2的1兆。
博主比较两款新发布模型的上下文长度。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
Kimi K2.7 Code相比K2.6有明显提升,尤其减少了过度思考,缩短了思考时间。
博主表示在实际测试中观察到思考时间明显减少,认为这是一个很大的改善。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
Kimi K2.7 Code与GPT 5.5和OPENSIVE 4.8仍有差距。
博主从参数对比表中得出该结论,认为在多个维度上仍落后于这两个国际模型。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
Kimi K2.7 Code可能是Kimi K3的前置模型。
博主推测,因其上下文仅256K且Kimi即将发布K3。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
在信件燃烧前端动画测试中,GPT 5.5效果最好,火焰、灰烬和背景均符合要求。
博主评价其右下角燃烧、火焰效果和灰烬都不错,背景符合提示词要求。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
在信件燃烧测试中,Opos 4.8火焰效果较差但燃烧轨迹正常,整体表现还可以。
博主认为燃烧轨迹正常,桌面背景也可,但火焰效果不如GPT 5.5。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
在信件燃烧测试中,Kimi K2.7 Code的效果与GPT 5.5相似,但燃烧轨迹不同,表现非常不错。
博主指出其燃烧效果及灰烬表现良好,在国内模型中属于最好。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
智谱5.1在燃烧测试中火焰效果一般,与最新模型差距明显。
博主对比新老模型,指出5.1较为一般。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
智谱5.2的燃烧效果比5.1有很大进步,但出现了一个黑圈,整体稍逊于Kimi K2.7 Code。
博主认为进步明显,但黑圈问题导致比Kimi稍差。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
千问3.7在燃烧测试中火焰颜色有问题,且纸张未完全烧完。
博主指出颜色异常和未烧完的缺陷。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
MiniMax M3在燃烧测试中未从右下角开始燃烧,且未按真实路径燃烧,效果较差。
博主认为这完全违反了提示词要求,表现很差。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
小米模型在燃烧测试中没有从右下角开始燃烧,其他方面尚可。
博主指出起始位置错误,但其他部分还行。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
DeepSeek V4在燃烧测试中效果像爆炸,表现不佳。
博主用“爆炸吗还是什么”形容,暗示效果失败。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
在后端商城测试中,MiniMax M3完成了一轮下单流程的前端展示,但提交订单报错,下单未完成,后台部分功能存在报错和缺失。
博主演示了加购、优惠券、地址新增等操作,但最终下单失败,后台加载出错、订单详情显示不全等,认为需要约五轮对话修复。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
千问3.7 max在后端商城测试中前端页面更舒服,下单流程通畅,优惠券能正常触发,后台功能完成度还可以。
博主展示了成功下单、优惠券使用,认为前端展示佳,后端完成度不错,但秒杀下单有bug,后台商品ID需手动输入。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
DeepSeek在后端商城测试中前端清爽,下单流程通顺,优惠券能正常触发,后台功能较齐全,但秒杀商品不显示、无法添加秒杀,个人中心功能缺失。
博主指出核心下单功能齐全,后台商品管理、订单操作正常,但强调了几个功能缺失的问题。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
小米模型在后端测试中前端效果最差,经过优化仍不佳,下单流程中缺少地址新增入口、无优惠券中心,后台缺少商品规格、订单详情等,功能缺失较多。
博主描述其为所有模型中表现最不好,且多轮修复后仍如此,指出多项关键功能缺失。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
智谱5.2在后端测试中下单流程顺畅,优惠券正常触发,支付成功,订单细节可见,后台提供了唯一的数据图表展示,功能整体完整,仅缺少用户地址管理功能。
博主称赞其流程顺畅,后台有独特的数据图表,订单状态更新正常,秒杀商品可单独添加,仅指出地址管理缺失。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Disagree
Kimi K2.7 Code在后端测试中立即购买报错无法继续,优惠券页面缺失,秒杀收货地址无增加入口,后台商品规格名称未显示,秒杀添加商品失败,功能完成度较低。
博主由于购买流程中断、多处功能缺失或异常,将其前后端完成度排在第四。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
Kimi K2.7 Code是国内模型中纯前端动画效果最好的。
博主在总结表格中将Kimi K2.7 Code的纯前端测试排在国内第一。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
千问3.7 max和智谱5.2的综合能力属于国产模型第一梯队,在本次测试中并列第一。
博主通过综合耗时、功能完成度、前后端表现等维度排名得出,两者各项指标均表现突出。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
Kimi K2.7 Code、MiniMax M3和DeepSeek V4 Pro三者综合能力相近,各有优劣。
博主在总结中认为它们差不多,处于同一梯队。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Agree
当多轮对话复杂度上升时,具有1兆上下文的模型(如智谱5.2、MiniMax M3、DeepSeek V4)表现更好,更不容易触发对话压缩。
博主根据测试经验指出大上下文在多轮复杂任务中的优势,认为效果会更好。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
当前国产大模型已具备稳定运行至少一小时以上的能力。
博主在总结中作为整体评价提出,认为所有参与测试的模型表现都不错。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?
Neutral
本次测试结果仅代表个人单次测试,不具有权威性,同一案例多次测试结果可能不同。
博主强调测试的局限性,提醒观众注意非权威性。
Source: GLM 5.2 VS Kimi 2.7 Code ,谁是最强国产编程模型?