iflow读取大文本的一些技巧

问题描述:医疗行业从业人员一名,今天想要读取一个诊疗指南(PDF文件),把里面的某个表格提取出来,但是PDF文件太大了(大约38M),iflow提示“文件内容(38215.1KB)超过了最大允许的大小(256KB)。”

解决方案:让iflow使用python去读取文件。我的提示词是“使用Python代码读取这个PDF文件的所有内容:@慢性肾脏病早期筛查_诊断及防治指南_2022年版_.pdf
(原文:use python codes to read all the contents of this pdf file @慢性肾脏病早期筛查_诊断及防治指南_2022年版_.pdf 当时键盘出问题了,没办法输入中文,所以用英文输入)

结果:顺利读取,提取出想要的表格,还转换成更美观的卡片格式。

大模型的上下文有限,你如果有高频这个场景,我建议你写一个 subagent + hooks 的方案,比如 pdf 先走一遍你自己的 python 脚本,不管是压缩还是ocr 提取,然后转成 markdown 再丢给大模型。

5 个赞