这kimi k2.5强的离谱啊

这个榜单好。这个榜单在哪里看?

昨天晚上就可以了,然后我nv官网上问了个问题(非api),显示排队90多人。
api也巨慢,延迟基本上20秒。
至少侧面证明它真的很火

https://lmarena.ai/zh/leaderboard

这个榜单比较权威,通过两个AI同时输出,然后盲评得到的评分

是的,基本没办法接入使用,api巨慢,一个简单问题,要几分钟才回复

看到大家对这篇帖子的阅读量,说明很关注这个模型,所以自费99,深度体验了一天,直接就给它上强度了,在线上项目进行开发,直接说结论,强,国产无敌的强,又快又强,已经把这个很复杂的项目写完了,真的牛

2 个赞

试了一下,指令遵循要差一些,几乎无法正确判断是否要调用skill,也难以遵循规则文件中的指令再次读取下一个文件,agent方面还得是M2.1表现最好,但编码方面确实表现还不错,会主动做静态检查和测试

还有Qwen max think

那个整体评分不是15吗?我不太清楚

你和大模型之间有个工具连接,trae这个工具他就是差点意思

整体排名在第15名,编程在第7名。这排名很强了,前面模型很多重复的。

这个里面,国外模型测的比较细,比如有没有思考,有没有用工具,都是单独一项。

我买了99/月的订阅,接入了claude code,结果一分钟给我干满一周的2048限额 :joy: 实在没法说

大模型在支持通用型/工具类应用还是不错的,在企业级应用方面,还弱一些。可能是企业级应用比较封闭,没有训练数据吧

是不cc太废token 了:scream:,我用的他们官方的,至少没有其他模型给我心梗的感觉,我感觉真的很给力了

1 个赞

到底有多强?

我也去试了,还原出来的简直效果一模一样

竟然还有人在问,到底有多强?没有对比就没有伤害,对比一下号称投资3800亿的qwen3-max-thinking就知道,知道千问在编码,审美有多垃圾了?就是还停留在ai刚出门的时代

2 个赞

也就是说目前国内的编程大模型,kimi k2.5已经是顶级大模型了,用提示词自己去测试一下,国产的大模型官网都是免费的啊

2 个赞

千问经典 Nexus AI
我真不知道三句话不离神经网络,各种浮夸的网页设计
是怎么出现在这个万亿参数的模型上的。
这种伪科技感真的看腻了
这玩意连glm都很难打过。
相比之下kimi真的很强

1 个赞


清言也是很不错的~
这个地球还有鼠标3d视差

1 个赞

我建议你们用这个提示词去kimi体验一下:为一家人工智能公司设计官方网站,融入地球主题元素。使用黑、白、灰作为主色调,营造出酷炫、精致且充满科技感的氛围。我特别需要一个能让用户感到震撼的精美地球动画。

1 个赞