先看变更日志:
通过反问,iflow还是先图片转文字,再喂给大模型kimi-k2.5
现在我的模型调用次数如下:
我再问一次模型
然后kimi-k2.5次数加一,qwen3-4b次数加一,,,,
说明kimi-k2.5的多模态能力,还是没有用起来
先看变更日志:
通过反问,iflow还是先图片转文字,再喂给大模型kimi-k2.5
现在我的模型调用次数如下:
我再问一次模型
然后kimi-k2.5次数加一,qwen3-4b次数加一,,,,
说明kimi-k2.5的多模态能力,还是没有用起来
我记得视觉解析用的是vl模型,不是这个4b吧。
但是图片转译再生成是有问题的,应该直接让模型读。
trae里面早就可以了,但是我刚才用了下感觉iflow效果不太好,不知道是不是遇到了和你一样的情况。
你也可以验证下,让iflow解析下图片,然后观察模型调用次数变化
,要是模型能原生理解图片,那可玩性就更高了
kimik2.5不是能原生支持视频、图片吗,iflow现在是还不支持吗
4b这个模型不是处理图片的,它的任务是类似做检查,整理格式这样的。
看楼主的意思是这样的。我不知道iflow是如何处理图片输入的,但看样子支持不是很好
不是可玩性变高,是现在可玩性太低了。![]()
这东西本来就应该原生输入呀!视觉理解能力这么强,再用vl转译,损失不小。
我在trae里面,如果布局出问题了,直接扔给它截图就好,巨省心。图片有图片的优势,如果用语言描述,就很费键盘
Trae上面的kimi 2.5似乎运行起来更稳一些,但是这个Kimi 2.5感觉聪明有余,踏实不足。不像GLM 4.7 会老老实实的干活。
能给个链接吗我也想看我的用量