使用一个有趣项目的测评一下近期上新的大模型

大家好啊,这段时间国产大模型不断推新,很多朋友们想想知道这些模型的能力强弱,正好我之前在B站刷到一个硅基骑手的测试项目,正好就拿来体验了一下,项目地址在这里:KCORES/silicon-rider-bench:KCORES Agent 基准测试项目旨在评估单模态/多模态模型的工具调用能力。 — KCORES/silicon-rider-bench: The KCORES Agent benchmarking project is designed to evaluate the tool-call capabilities of single-modal/multi-modal models. 项目介绍如下:

开头叠甲:本次测试娱乐为主,不完全真实反映模型能力,以实际体验为准

本次测试的模型为ollama提供的云端模型以及小米mimo开放平台,包括:glm-5:cloud、kimi-k2.5:cloud、qwen3-coder-next:cloud、MiMo-V2-Flash(minimax2.5云端模型虽然ollama也上架了,但是好像没有完全适配,不支持大量工具调用,感兴趣的朋友也可以自己去测试一下)

测评的指标为:总利润、完成订单数、准时率、路径效率(越接近1越好)、API违规率

本次测评结果如下:

1.GLM5

2.KiMi2.5

3.qwen3-coder-next:cloud

4.Mimo-V2-Flash

不知道这样的结果是否符合各位的体感?再次强调本次测评非严谨测评,结果仅供娱乐,以实际工作能力为准

1 个赞

牙医的测试分数高很多呀。我记得glm5是700多元
有可能你时间没有跑满?

确实是这样,我这里只跑了100轮