关于coding plan的评测

10012918046 · 2026 年3 月 25 日 01:00

大家好，我是隔壁站跨过来的

我在隔壁站做了公益测评，测试了国内厂家国模的不同coding

拨测数据如下：

里面包含了我们第一次前端测评的数据

根据我们测试发现，降智这个应该是不存在的，小厂也可能发挥出不错的效果水平

一般原本的厂家，比如说kimi 2.5的模型或者MiniMax的模型，在他们自己厂家的手上发挥的速率以及效果，还有在Coding产品里边的工具调用，都是比较好的，聚合多个的厂家，一般都是这个没做好。如果是去买聚合厂，其实大部分效果都差不多，建议优先考虑吞吐速度较快的，像火山引擎似乎就有限速的政策，购买了以后，使用速度较慢。

MiniMax优先考虑极速版，因为极速版和普通版差距较大。智谱和kimi都还可以，但是都普遍反应计费较快。阶跃星辰的话，响应速度是很快，但是不适合编码工作，只适合简单Agent。

10011488078 · 2026 年3 月 25 日 01:04

欢迎大佬，前两天刚看到并转了你的coding plan 测速项目

10012918046 · 2026 年3 月 25 日 01:16

感谢转发，也是因为你的转发，我才发现了这个站点。

iflow这个在早期的时候我也有看到，似乎是阿里旗下的免费Coding产品。我之前有稍微试用一下，但是没有深入使用，可惜目前已经要关停了。

10011646394 · 2026 年3 月 25 日 01:16

能添加你说的降智检测吗？部分codingplan有模型降智的情况，还有可能伪装。

10010408779 · 2026 年3 月 25 日 01:39

coding plan按次收费和token有什么关系，无非是模型的上下文窗口有关系。

10008834122 · 2026 年3 月 25 日 01:41

评测是否能探测上下文,可能不同平台提供的相同模型上下文也存在差异.

10011488078 · 2026 年3 月 25 日 01:44

速度……TPS（tokens/s），TTFT（time to first token），评测的是各家服务的响应速度情况，在网上都是评测价格，模型类型和消耗速度的，关于性能的只言片语基本也是基于主观的描述文字，没有直接数值的比对

10011488078 · 2026 年3 月 25 日 01:51

能力面板，Minimax-m2.5竟然比m2.7还高（自家）

glm-5普遍都很低，kimi-k2.5，第三方的居然比原厂的分数高一倍，有点反直觉，难道是用量大导致的资源紧张降智？

10010408779 · 2026 年3 月 25 日 01:58

走自家专属模型的测的没必要，切模型都切不了，要百炼、火山这种聚合的才有意义，可以切换模型。

10011488078 · 2026 年3 月 25 日 02:01

有吧，之前不是智谱超卖严重导致非常卡，如果那个时候入了，又不能切模型，那不就坏了

10010408779 · 2026 年3 月 25 日 02:04

所以要买聚合平台的，我们公司买了三个kimi的for-coding已经被我弃用了，思考的轮数太多了，次数消耗的飞快，有问题就炸就一个模型。这种自己厂家出的单个的要避雷别买就对了。

10011488078 · 2026 年3 月 25 日 02:09

kimi是有好多反馈消耗过快的

聚合的好处买一份可以挑着用，各家的模型都有，不过不知道相比官方是否是量化的，或者说量化到什么程度

关键这东西不自己实际用可能还真不好摸清楚……

10011488078 · 2026 年3 月 25 日 02:11

哦对了，好像是因为有倍速，高峰时段用按倍速，就耗得巨快……

10000059001 · 2026 年3 月 25 日 02:49

哇！欢迎大佬分享~！

指路马甲修改方式，访问心流官网 https://iflow.cn/ ，点击右上角头像 - 修改昵称

10012918046 · 2026 年3 月 25 日 02:50

目前暂时无法添加，我们也在评估比较好的方式，想要长期测评，在做自动化流程

10012918046 · 2026 年3 月 25 日 02:51

谢谢，已经更改，似乎还没同步

10012918046 · 2026 年3 月 25 日 02:54

1.可以从首字和吞吐量看出来模型的算力是否充沛
2.拨测能实现的最佳方式就是这种，上下文一长，模型容易报错，截断，需要更进一步的细分状态，自动化较困难

10012918046 · 2026 年3 月 25 日 02:55

正在尝试添加中，但是上下文长度的问题，原厂厂家也存在截断，限流，不只聚合厂

10012918046 · 2026 年3 月 25 日 02:59

2.5的编程能力似乎大于2.7,2.7更加侧重agent
glm-5低的原因是因为前端项目似乎能力确实一般
我前面也说了，小厂的能力有的时候还可以，聚合就是工具调用可能会报错，但是模型能力和算力供给不一定差于原厂
kimi2.5的前端能力是很强的
模型降智这个东西评测出来太困难了，因为我的plan基本上就是拨测使用，在厂家那边可能算用量较少的一档，我自己测评的时候基本不降智
这也只是第一轮，我们尝试自动化测评，还在尝试更多更好的方式，第一轮测试完发现很多问题都在整改中

10012918046 · 2026 年3 月 25 日 03:02

kimi和glm都有反馈消耗过快，特别是glm，我自用有的时候高峰期就几句话已经消耗百分之70了