大家好,我是隔壁站跨过来的
我在隔壁站做了公益测评,测试了国内厂家国模的不同coding
拨测数据如下:
里面包含了我们第一次前端测评的数据
根据我们测试发现,降智这个应该是不存在的,小厂也可能发挥出不错的效果水平
一般原本的厂家,比如说kimi 2.5的模型或者MiniMax的模型,在他们自己厂家的手上发挥的速率以及效果,还有在Coding产品里边的工具调用,都是比较好的,聚合多个的厂家,一般都是这个没做好。如果是去买聚合厂,其实大部分效果都差不多,建议优先考虑吞吐速度较快的,像火山引擎似乎就有限速的政策,购买了以后,使用速度较慢。
MiniMax优先考虑极速版,因为极速版和普通版差距较大。智谱和kimi都还可以,但是都普遍反应计费较快。阶跃星辰的话,响应速度是很快,但是不适合编码工作,只适合简单Agent。
7 个赞
欢迎大佬,前两天刚看到并转了你的coding plan 测速项目
1 个赞
感谢转发,也是因为你的转发,我才发现了这个站点。
iflow这个在早期的时候我也有看到,似乎是阿里旗下的免费Coding产品。我之前有稍微试用一下,但是没有深入使用,可惜目前已经要关停了。
能添加你说的降智检测吗?部分codingplan有模型降智的情况,还有可能伪装。
coding plan按次收费和token有什么关系,无非是模型的上下文窗口有关系。
评测是否能探测上下文,可能不同平台提供的相同模型上下文也存在差异.
速度……TPS(tokens/s),TTFT(time to first token),评测的是各家服务的响应速度情况,在网上都是评测价格,模型类型和消耗速度的,关于性能的只言片语基本也是基于主观的描述文字,没有直接数值的比对
能力面板,Minimax-m2.5竟然比m2.7还高(自家)
glm-5普遍都很低,kimi-k2.5,第三方的居然比原厂的分数高一倍,有点反直觉
,难道是用量大导致的资源紧张降智?
走自家专属模型的测的没必要,切模型都切不了,要百炼、火山这种聚合的才有意义,可以切换模型。
有吧,之前不是智谱超卖严重导致非常卡,如果那个时候入了,又不能切模型,那不就坏了 
所以要买聚合平台的,我们公司买了三个kimi的for-coding已经被我弃用了,思考的轮数太多了,次数消耗的飞快,有问题就炸就一个模型。这种自己厂家出的单个的要避雷别买就对了。
kimi是有好多反馈消耗过快的
聚合的好处买一份可以挑着用,各家的模型都有,不过不知道相比官方是否是量化的,或者说量化到什么程度
关键这东西不自己实际用可能还真不好摸清楚……
哦对了,好像是因为有倍速,高峰时段用按倍速,就耗得巨快……
哇!欢迎大佬分享~!
指路马甲修改方式,访问心流官网 https://iflow.cn/ ,点击右上角头像 - 修改昵称 
目前暂时无法添加,我们也在评估比较好的方式,想要长期测评,在做自动化流程
1 个赞
1.可以从首字和吞吐量看出来模型的算力是否充沛
2.拨测能实现的最佳方式就是这种,上下文一长,模型容易报错,截断,需要更进一步的细分状态,自动化较困难
正在尝试添加中,但是上下文长度的问题,原厂厂家也存在截断,限流,不只聚合厂
1 个赞
2.5的编程能力似乎大于2.7,2.7更加侧重agent
glm-5低的原因是因为前端项目似乎能力确实一般
我前面也说了,小厂的能力有的时候还可以,聚合就是工具调用可能会报错,但是模型能力和算力供给不一定差于原厂
kimi2.5的前端能力是很强的
模型降智这个东西评测出来太困难了,因为我的plan基本上就是拨测使用,在厂家那边可能算用量较少的一档,我自己测评的时候基本不降智
这也只是第一轮,我们尝试自动化测评,还在尝试更多更好的方式,第一轮测试完发现很多问题都在整改中
1 个赞
kimi和glm都有反馈消耗过快,特别是glm,我自用有的时候高峰期就几句话已经消耗百分之70了