国产大模型横评

编程/代码能力

国产大模型横评 · 子话题 2

共识较强
千问3.7 Max是当前国产编程能力最强的模型之一
智谱GLM 5.1/5.2在国产模型中编程能力突出,逼近Claude
腾讯混元/元宝代码与开发能力差,多项测试垫底
DeepSeek V4 Pro编程能力与第一梯队接近,性价比极高
视角多元
Kimi K2.6/K2.7的编程能力是否有竞争力
观点A编程能力有明显差距,不如GLM和千问
小诺指出K2.6在开发中被GLM-5.1拉开差距;AI随风随风指出K2.7 Code后端测试功能完成度低,多处报错
观点B编程能力在特定场景下可以接受
水部员外郎表示Kimi K2.5是其编程主力,体验优于DeepSeek V3.2;AI观模者的得分中Kimi处于第二梯队
编辑分析:如果你用模型做大型项目开发,Kimi目前不如千问/GLM稳定;如果是中小型脚本或个人项目,Kimi仍可胜任,且前端能力有优势
独家观察
MiniMax M3在私有Api测试中前端可达Claude Opus 4.6-4.7水平,编程在GLM 5到5.1之间
给出了MiniMax M3与海外模型的精准对标,其他博主未做此类量化对比
GLM-5.2推理时间极长,通过时间换准确率
揭示了GLM最新模型的实际使用代价,对时间敏感场景的开发者有警示意义
相关视频