裁判:claude sonnet 4.6,用它是因为我把它写的文档丢给其他模型打分,毫无疑问的碾压,无论是skill遵从度,还是输出结果完整度,都是很令我满意
参赛选手
agent: kilo code | iflow | opencode
模型: glm5 | minimax-m2.5 | kimi-k2.5
内容是让他们对agents.md反向生成文档,由于kilo code没有免费的glm5了所以kilo code只有两个,opencode只有MiniMax-M2.5参赛
1 个赞
至于为什么没有opencode…
ummmm…我能说是因为它根本就没有写完就卡死了么???
无论是用的桌面端还是acp,都是一个样子,不知道这玩意怎么火起来的,平时用也是一样,奇慢无比
怎么没有cc、codex、gemini参赛
我没有cc订阅,所以直接在反重力用的sonnet 4.6和gemini-3.1-pro high,以及codex中用gpt-5.3-codex high(免费账户)这三者结论就是gemini-3.1-pro完全没按照skill来生成文档,并且指出错误后无法改正。gpt-5.3-codex high 比sonnet4.6差一点,主要表现在接口规范接口示例方面,然后就是输入输出参数结构组织上。
排名上sonnet-4.6>>gpt-5.3-codex >>>> gemini-3.1-pro




