这个榜单好。这个榜单在哪里看?
昨天晚上就可以了,然后我nv官网上问了个问题(非api),显示排队90多人。
api也巨慢,延迟基本上20秒。
至少侧面证明它真的很火
https://lmarena.ai/zh/leaderboard
这个榜单比较权威,通过两个AI同时输出,然后盲评得到的评分
是的,基本没办法接入使用,api巨慢,一个简单问题,要几分钟才回复
看到大家对这篇帖子的阅读量,说明很关注这个模型,所以自费99,深度体验了一天,直接就给它上强度了,在线上项目进行开发,直接说结论,强,国产无敌的强,又快又强,已经把这个很复杂的项目写完了,真的牛
试了一下,指令遵循要差一些,几乎无法正确判断是否要调用skill,也难以遵循规则文件中的指令再次读取下一个文件,agent方面还得是M2.1表现最好,但编码方面确实表现还不错,会主动做静态检查和测试
还有Qwen max think
那个整体评分不是15吗?我不太清楚
你和大模型之间有个工具连接,trae这个工具他就是差点意思
整体排名在第15名,编程在第7名。这排名很强了,前面模型很多重复的。
这个里面,国外模型测的比较细,比如有没有思考,有没有用工具,都是单独一项。
我买了99/月的订阅,接入了claude code,结果一分钟给我干满一周的2048限额
实在没法说
大模型在支持通用型/工具类应用还是不错的,在企业级应用方面,还弱一些。可能是企业级应用比较封闭,没有训练数据吧
是不cc太废token 了
,我用的他们官方的,至少没有其他模型给我心梗的感觉,我感觉真的很给力了
到底有多强?
我也去试了,还原出来的简直效果一模一样
也就是说目前国内的编程大模型,kimi k2.5已经是顶级大模型了,用提示词自己去测试一下,国产的大模型官网都是免费的啊
千问经典 Nexus AI
我真不知道三句话不离神经网络,各种浮夸的网页设计
是怎么出现在这个万亿参数的模型上的。
这种伪科技感真的看腻了
这玩意连glm都很难打过。
相比之下kimi真的很强
我建议你们用这个提示词去kimi体验一下:为一家人工智能公司设计官方网站,融入地球主题元素。使用黑、白、灰作为主色调,营造出酷炫、精致且充满科技感的氛围。我特别需要一个能让用户感到震撼的精美地球动画。


