能否加入视频读取功能?(给 k2.5或类似模型)

如题。现在kimi k2.5支持图片和视频输入了,拥有很强的网页复刻能力。
(给它看个视频,直接复刻一个出来)
在iflow这类agent工具中,单纯复刻网页也许不重要,但如果写出来的代码有bug,尤其是ui组件、元素变换、或者和交互强相关的bug录个屏是最言简意赅的方式
尤其是对于软件工程不够了解的人,他们可能不懂这个组件、这个现象,或者这个东西到底叫啥,但他们可以直接把它录下来,告诉AI:“这有问题,帮我修一下,顺便告诉我这应该叫啥”
它可能比打字半天,用语言描述要精准得多,也高效得多。
在未来,随着更多的多模态模型,让它们拥有像人一样的视觉能力,也是很重要的。
我不清楚这个在技术上是否方便实现(但模型至少是支持的对吧),因此只是一个小建议,希望懂的人能回答一下。

1 个赞

这个暂时还没有计划,后面评估下哦