智谱5.2的上下文窗口为1兆(1M),支持high和max推理级别。
博主介绍模型基础参数信息。
Kimi K2.7 Code上下文窗口为256K,远小于智谱5.2的1兆。
博主比较两款新发布模型的上下文长度。
Kimi K2.7 Code相比K2.6有明显提升,尤其减少了过度思考,缩短了思考时间。
博主表示在实际测试中观察到思考时间明显减少,认为这是一个很大的改善。
Kimi K2.7 Code与GPT 5.5和OPENSIVE 4.8仍有差距。
博主从参数对比表中得出该结论,认为在多个维度上仍落后于这两个国际模型。
Kimi K2.7 Code可能是Kimi K3的前置模型。
博主推测,因其上下文仅256K且Kimi即将发布K3。
在信件燃烧前端动画测试中,GPT 5.5效果最好,火焰、灰烬和背景均符合要求。
博主评价其右下角燃烧、火焰效果和灰烬都不错,背景符合提示词要求。
在信件燃烧测试中,Opos 4.8火焰效果较差但燃烧轨迹正常,整体表现还可以。
博主认为燃烧轨迹正常,桌面背景也可,但火焰效果不如GPT 5.5。
在信件燃烧测试中,Kimi K2.7 Code的效果与GPT 5.5相似,但燃烧轨迹不同,表现非常不错。
博主指出其燃烧效果及灰烬表现良好,在国内模型中属于最好。
智谱5.1在燃烧测试中火焰效果一般,与最新模型差距明显。
博主对比新老模型,指出5.1较为一般。
智谱5.2的燃烧效果比5.1有很大进步,但出现了一个黑圈,整体稍逊于Kimi K2.7 Code。
博主认为进步明显,但黑圈问题导致比Kimi稍差。
千问3.7在燃烧测试中火焰颜色有问题,且纸张未完全烧完。
博主指出颜色异常和未烧完的缺陷。
MiniMax M3在燃烧测试中未从右下角开始燃烧,且未按真实路径燃烧,效果较差。
博主认为这完全违反了提示词要求,表现很差。
小米模型在燃烧测试中没有从右下角开始燃烧,其他方面尚可。
博主指出起始位置错误,但其他部分还行。
DeepSeek V4在燃烧测试中效果像爆炸,表现不佳。
博主用“爆炸吗还是什么”形容,暗示效果失败。
在后端商城测试中,MiniMax M3完成了一轮下单流程的前端展示,但提交订单报错,下单未完成,后台部分功能存在报错和缺失。
博主演示了加购、优惠券、地址新增等操作,但最终下单失败,后台加载出错、订单详情显示不全等,认为需要约五轮对话修复。
千问3.7 max在后端商城测试中前端页面更舒服,下单流程通畅,优惠券能正常触发,后台功能完成度还可以。
博主展示了成功下单、优惠券使用,认为前端展示佳,后端完成度不错,但秒杀下单有bug,后台商品ID需手动输入。
DeepSeek在后端商城测试中前端清爽,下单流程通顺,优惠券能正常触发,后台功能较齐全,但秒杀商品不显示、无法添加秒杀,个人中心功能缺失。
博主指出核心下单功能齐全,后台商品管理、订单操作正常,但强调了几个功能缺失的问题。
小米模型在后端测试中前端效果最差,经过优化仍不佳,下单流程中缺少地址新增入口、无优惠券中心,后台缺少商品规格、订单详情等,功能缺失较多。
博主描述其为所有模型中表现最不好,且多轮修复后仍如此,指出多项关键功能缺失。
智谱5.2在后端测试中下单流程顺畅,优惠券正常触发,支付成功,订单细节可见,后台提供了唯一的数据图表展示,功能整体完整,仅缺少用户地址管理功能。
博主称赞其流程顺畅,后台有独特的数据图表,订单状态更新正常,秒杀商品可单独添加,仅指出地址管理缺失。
Kimi K2.7 Code在后端测试中立即购买报错无法继续,优惠券页面缺失,秒杀收货地址无增加入口,后台商品规格名称未显示,秒杀添加商品失败,功能完成度较低。
博主由于购买流程中断、多处功能缺失或异常,将其前后端完成度排在第四。
Kimi K2.7 Code是国内模型中纯前端动画效果最好的。
博主在总结表格中将Kimi K2.7 Code的纯前端测试排在国内第一。
千问3.7 max和智谱5.2的综合能力属于国产模型第一梯队,在本次测试中并列第一。
博主通过综合耗时、功能完成度、前后端表现等维度排名得出,两者各项指标均表现突出。
Kimi K2.7 Code、MiniMax M3和DeepSeek V4 Pro三者综合能力相近,各有优劣。
博主在总结中认为它们差不多,处于同一梯队。
当多轮对话复杂度上升时,具有1兆上下文的模型(如智谱5.2、MiniMax M3、DeepSeek V4)表现更好,更不容易触发对话压缩。
博主根据测试经验指出大上下文在多轮复杂任务中的优势,认为效果会更好。
当前国产大模型已具备稳定运行至少一小时以上的能力。
博主在总结中作为整体评价提出,认为所有参与测试的模型表现都不错。
本次测试结果仅代表个人单次测试,不具有权威性,同一案例多次测试结果可能不同。
博主强调测试的局限性,提醒观众注意非权威性。