使用一个有趣项目的测评一下近期上新的大模型

10008990087 · 2026 年2 月 14 日 03:03

大家好啊，这段时间国产大模型不断推新，很多朋友们想想知道这些模型的能力强弱，正好我之前在B站刷到一个硅基骑手的测试项目，正好就拿来体验了一下，项目地址在这里：KCORES/silicon-rider-bench：KCORES Agent 基准测试项目旨在评估单模态/多模态模型的工具调用能力。 — KCORES/silicon-rider-bench: The KCORES Agent benchmarking project is designed to evaluate the tool-call capabilities of single-modal/multi-modal models. 项目介绍如下：

开头叠甲：本次测试娱乐为主，不完全真实反映模型能力，以实际体验为准

本次测试的模型为ollama提供的云端模型以及小米mimo开放平台，包括：glm-5:cloud、kimi-k2.5:cloud、qwen3-coder-next:cloud、MiMo-V2-Flash（minimax2.5云端模型虽然ollama也上架了，但是好像没有完全适配，不支持大量工具调用，感兴趣的朋友也可以自己去测试一下）

测评的指标为：总利润、完成订单数、准时率、路径效率（越接近1越好）、API违规率

本次测评结果如下：

1.GLM5

2.KiMi2.5

3.qwen3-coder-next:cloud

4.Mimo-V2-Flash

不知道这样的结果是否符合各位的体感？再次强调本次测评非严谨测评，结果仅供娱乐，以实际工作能力为准

10011693186 · 2026 年2 月 14 日 03:21

牙医的测试分数高很多呀。我记得glm5是700多元
有可能你时间没有跑满？

10008990087 · 2026 年2 月 14 日 04:57

确实是这样，我这里只跑了100轮