Kimi-k2.5是如何增强iflow多模态能力的?我测试下来,还是调用的qwen3-4b

先看变更日志:

通过反问,iflow还是先图片转文字,再喂给大模型kimi-k2.5

现在我的模型调用次数如下:

我再问一次模型

然后kimi-k2.5次数加一,qwen3-4b次数加一,,,,

说明kimi-k2.5的多模态能力,还是没有用起来

1 个赞

我记得视觉解析用的是vl模型,不是这个4b吧。
但是图片转译再生成是有问题的,应该直接让模型读。
trae里面早就可以了,但是我刚才用了下感觉iflow效果不太好,不知道是不是遇到了和你一样的情况。

你也可以验证下,让iflow解析下图片,然后观察模型调用次数变化 :joy: ,要是模型能原生理解图片,那可玩性就更高了

kimik2.5不是能原生支持视频、图片吗,iflow现在是还不支持吗

4b这个模型不是处理图片的,它的任务是类似做检查,整理格式这样的。

1 个赞

看楼主的意思是这样的。我不知道iflow是如何处理图片输入的,但看样子支持不是很好

不是可玩性变高,是现在可玩性太低了。:joy:
这东西本来就应该原生输入呀!视觉理解能力这么强,再用vl转译,损失不小。
我在trae里面,如果布局出问题了,直接扔给它截图就好,巨省心。图片有图片的优势,如果用语言描述,就很费键盘

2 个赞

Trae上面的kimi 2.5似乎运行起来更稳一些,但是这个Kimi 2.5感觉聪明有余,踏实不足。不像GLM 4.7 会老老实实的干活。

能给个链接吗我也想看我的用量

1 个赞