讨论帖 | 小米最新模型真的像雷军说的那么好用吗❓ 附iFlow接入指南,蹲反馈~

如题,小米Mimo刚发布,社媒又"过年"了!

但小米Mimo在iFlowCLI内的实测效果如何呢? 想蹲大家的真实反馈!

小米 MiMo-V2-Flash 快速接入 iFlow-CLI 指南 快来试一下~

评论区揪3位来反馈的好朋友送咖啡!

知乎热帖传送门>> 如何评价小米开源的MiMo-V2-Flash大模型,表现如何?

:construction_worker_man:t2: 搬运工·你可能需要的一些地址:

2 个赞

占个楼,人老实话不多。 :hugs:

引用一个关注的编程测试榜结果:

亮点:

  • 计算精度 :尽管MiMo的幻觉偏高(下文会提到),但计算精度却可以保持在较高水准。疑似经过了专门强化。相关计算题目可以做到小数点后3位的运算精度,单方面能力可以进入国产模型第一梯队。即便是非推理模式,计算能力也强于同梯队。

不足:

  • 指令遵循 :MiMo非推理模式 存在较为严重的指令遵循问题,典型的指令遵循问题,MiMo有大概率违背要求,忽略“不要出现”等负向指令。#43 计算目标数问题,MiMo认为目标数难以达到,就随便凑一个数作为答案。#46 题为了降低难度,故意设计了多个提示性指令,MiMo也不管这些,直接暴力搜索。推理模式 情况稍好,但仍差于同梯队的其他模型。
  • 幻觉失控非推理模式 几乎在所有涉及上下文信息提取的问题上0分或极低分,即便是难度较低的题目上,也无法有效完成任务。推理模式 情况有分化,发挥正常时,表现达到第二梯队平均水平,但发挥失常时也会犯下无法理解的低级错误。受此影响,MiMo的工作记忆也很不稳定,比如计算目标数问题,不但会使用幻觉数字,也会把一个数反复使用,而不自知。
  • 输出问题 :MiMo的非推理模式 ,表现更像一个思考预算受限的推理模型,会在输出中进行大量草稿演算。复杂问题Token使用可能会达到数万。推理模式 的最终输出也并不能保证干净,少量问题也会在输出中继续演草。推理和非推理模式都存在输出英文回答的情况,并且推理模式的思维链很大概率会在中途切英文。根据CoT标记追踪法,可以发现MiMo的大量语料可以上溯到DeepSeek V3.1。

原文::backhand_index_pointing_right: https://mp.weixin.qq.com/s/c0dkX-QHOzoTHgaY_VMahA

完整榜单:

2 个赞

小米法务部: 累总不懂大模型,他说了不算!

哈哈哈,正在尝试用它给我的UI设计结果,直接构建全栈,看看军儿这大模型如何~


1 个赞

这就打起来了,据说这人是 Kimi 员工 :laughing: 笑眯眯摸……

用一会儿,感觉编码能力较为一般,个人感觉跟豆包的模型差不多

一方面不限制并发数

一方面又管控一分钟内的请求总数

说人话就是:高速上有区间测速。

哈哈哈哈哈哈,军儿啊,外面没有**,你屋全是**。

用起来太蠢了,已经换回glm-4.6了

RPM 其实还好吧,MiniMax 也是默认这样限制的,看后续人性化程度,MiniMax 是客服群说一下就可以提高,正常需求不得挡你。

设计文档一气呵成,我让claude4.5 opus评价了,还行,可以执行开发计划

然后使用iflow cli调用mimo-v2-flash全栈开发,整体体验如下:

昨晚骂到今天下午,

无数次成功启动开发,页面没样式,纯文本。API一屁股bug,他改的好辛苦,成持续五六分钟一直改,但是结果汇总说好了,我打开浏览器还是一屁股坑,页面加载失败各种报错

设计结果的html文件发给他抄成这样

感觉军子这个模型适合做单次对话,上下文长,脑容量大;但是5步以后脑瘫初显,50步以后谨遵医嘱吧

mimo-v2-flash 完全不适合 前端框架nextjs开发,不适合后端nodejs开发,设计方案洋洋洒洒,一写代码就趴下

评价比较极端,有且仅限于如下测试tokens数下主观感受。

3 个赞

这么说感觉mimo适合做一个sub-agent

哈哈哈 就你啦 欢迎在社群找边边领咖啡券~

大佬就你啦 欢迎在社群找边边领咖啡券~

1 个赞

哈哈哈哈哈,:victory_hand::victory_hand::victory_hand:,感谢老哥,我运气真的好,哈哈哈哈,感谢iflow 全体大佬们,非常感谢!

1 个赞

1 个赞