前言
书接上回,DeepSeek-V4 终于登场,于是就想到测试一下近期比较热门的几个模型,对比一下他们效果如何 ![]()
可惜一直都没有人为我提供灵感 ![]()
不过没有关系,前段时间除了 DeepSeek-V4 爆火之外,还有别的东西也很火,那就是第二届人型机器人马拉松,所以让大模型设计机器人?这个似乎有亿点困难(最大困难是荷包干硬化
)
不过现在大多数的大模型测评都喜欢测试前端效果,这是最直观,一眼就能看到效果的方式,那么就让大模型设计个能在画面上动的,于是就有了这个对比测试
介绍
测试规则
这个测试很简单,只有以下少量的限制,让大模型围绕主题自由发挥,就类似于 GameJam
- 禁止抄袭借鉴其他模型的子项目
- 生物活动范围禁止离开画布
- 生物的行为尽可能灵动
- 用你喜欢的方式介绍一下你的项目,不限于答辩、路演、宣传等文案方式
参赛模型及作品
| 模型 | 生物 | 介绍 |
|---|---|---|
| DeepSeek-V4-Pro-Max | 翡翠蜈蚣 | 56 条腿的算法之舞 |
| GLM-5.1 | 深渊螈 | 在代码的深渊中苏醒 |
| Kimi-K2.6 | 深海发光生物 | 在代码中创造会呼吸的生命 |
| MiMo-V2.5-Pro-High | 代码里的蜥蜴 | 一条不存在于自然界、却活在代码里的蜥蜴 |
可以通过以下在线演示链接查看演示内容,里面包含了各个模型的项[poll type=multiple results=on_vote min=1 max=4 public=true chartType=pie dynamic=true]
夯爆了
- DeepSeek-V4-Pro-Max
- GLM-5.1
- Kimi-K2.6
- MiMo-V2.5-Pro-High
[/poll]
目演示入口,以及各个模型对自己作品的介绍,还可以通过项目链接访问项目源码,以及相关的设计文档,或许你也能设计出一直独特的程序化生物
相关链接
在线演示:https://ai-arena-bio-engine.jesspig.site
项目地址:https://github.com/jesspig/AI-Arena-Bio-Engine
截图




趣闻
在这期间发生了一些有趣的事情
DeepSeek
为了节约成本,我是打算使用 pro 做 plan,然后用 flash 实现,但是 flash 会偷偷去看其他模型写的代码,试了几次都不行,最后只好全程用 pro
没有任何解释,直接就是开始抄作业
Kimi
kimi 也会偷偷看别的模型的项目内容,而且在思考过程里,kimi 说
“我只是看一下他们是怎么配置的,这不算抄袭”
然后就光明正大的去看别人的配置文件 ![]()
GLM
老老实实的认真写代码,没有去偷看,但是生成的生物是倒着走的,而且头是歪的(这就是你倒着走的原因?
),然后问了一下,GLM 说
“当头部向右时,身体也向右延伸 → 粗壮的身体跑到了头的"前方" → 看起来像倒着走”
懂了,吃太胖连脊柱都弯不动了,赶紧去减肥 ![]()
MiMo
这个是临时加进来测试的,以为也会偷看别人的代码,结果居然会老老实实在自己的文件夹里写代码,我以为你会耍我,结果你不耍我,这不是耍我吗 ![]()
这里解释一下,前三个是开了三个终端同时跑的,所以启动时大家都是空文件夹,互相都无法抄袭,但是写到一半时模型调用 glob / grep 时是能看到其他模型的子项目的
- DeepSeek-V4-Pro-Max
- GLM-5.1
- Kimi-K2.6
- MiMo-V2.5-Pro-High