如题,小米Mimo刚发布,社媒又"过年"了!
但小米Mimo在iFlowCLI内的实测效果如何呢? 想蹲大家的真实反馈!
附小米 MiMo-V2-Flash 快速接入 iFlow-CLI 指南 快来试一下~
评论区揪3位来反馈的好朋友送咖啡!
知乎热帖传送门>> 如何评价小米开源的MiMo-V2-Flash大模型,表现如何?
搬运工·你可能需要的一些地址:
如题,小米Mimo刚发布,社媒又"过年"了!
但小米Mimo在iFlowCLI内的实测效果如何呢? 想蹲大家的真实反馈!
附小米 MiMo-V2-Flash 快速接入 iFlow-CLI 指南 快来试一下~
评论区揪3位来反馈的好朋友送咖啡!
知乎热帖传送门>> 如何评价小米开源的MiMo-V2-Flash大模型,表现如何?
搬运工·你可能需要的一些地址:
占个楼,人老实话不多。 ![]()
引用一个关注的编程测试榜结果:
亮点:
- 计算精度 :尽管MiMo的幻觉偏高(下文会提到),但计算精度却可以保持在较高水准。疑似经过了专门强化。相关计算题目可以做到小数点后3位的运算精度,单方面能力可以进入国产模型第一梯队。即便是非推理模式,计算能力也强于同梯队。
不足:
- 指令遵循 :MiMo非推理模式 存在较为严重的指令遵循问题,典型的指令遵循问题,MiMo有大概率违背要求,忽略“不要出现”等负向指令。#43 计算目标数问题,MiMo认为目标数难以达到,就随便凑一个数作为答案。#46 题为了降低难度,故意设计了多个提示性指令,MiMo也不管这些,直接暴力搜索。推理模式 情况稍好,但仍差于同梯队的其他模型。
- 幻觉失控 :非推理模式 几乎在所有涉及上下文信息提取的问题上0分或极低分,即便是难度较低的题目上,也无法有效完成任务。推理模式 情况有分化,发挥正常时,表现达到第二梯队平均水平,但发挥失常时也会犯下无法理解的低级错误。受此影响,MiMo的工作记忆也很不稳定,比如计算目标数问题,不但会使用幻觉数字,也会把一个数反复使用,而不自知。
- 输出问题 :MiMo的非推理模式 ,表现更像一个思考预算受限的推理模型,会在输出中进行大量草稿演算。复杂问题Token使用可能会达到数万。推理模式 的最终输出也并不能保证干净,少量问题也会在输出中继续演草。推理和非推理模式都存在输出英文回答的情况,并且推理模式的思维链很大概率会在中途切英文。根据CoT标记追踪法,可以发现MiMo的大量语料可以上溯到DeepSeek V3.1。
原文:
https://mp.weixin.qq.com/s/c0dkX-QHOzoTHgaY_VMahA
完整榜单:
小米法务部: 累总不懂大模型,他说了不算!
用一会儿,感觉编码能力较为一般,个人感觉跟豆包的模型差不多
用起来太蠢了,已经换回glm-4.6了
RPM 其实还好吧,MiniMax 也是默认这样限制的,看后续人性化程度,MiniMax 是客服群说一下就可以提高,正常需求不得挡你。
这么说感觉mimo适合做一个sub-agent
哈哈哈 就你啦 欢迎在社群找边边领咖啡券~
大佬就你啦 欢迎在社群找边边领咖啡券~
哈哈哈哈哈,![]()
![]()
,感谢老哥,我运气真的好,哈哈哈哈,感谢iflow 全体大佬们,非常感谢!
帅