定义
文档提取节点支持您在工作流中解析特定格式的文档,并将其中的文本内容提取出来。它能将文件转换为文本,让不支持多模态的大模型拥有一定的文本处理的能力,同时可以降低大模型处理文件的成本。
支持的文档类型见下文。
前置条件
使用示例
-
在开始时,声明单文件或多文件类型的变量,例如file。添加变量,字段类型选择单文件,变量名称和显示名称均填写
file,支持的文件类型勾选文档,上传文件类型选择两者(OSS 文件和 URL),勾选必填,单击保存。 -
添加文档提取器节点,并将文件变量作为输入。添加文档提取器节点,在输入变量中选择已声明的文件变量。
-
添加结束文件。添加结束节点,在输出变量中新增变量
text,将其引用路径设置为文档提取器的text String字段。 -
测试,输入文件地址,并执行。运行工作流后,三个节点均显示运行成功,文档提取器节点成功从上传文件中提取出文本内容。提取结果可在右侧 Test Run 面板的结果标签页中查看,并通过复制按钮获取输出文本。
支持的文档类型
-
文本文档:例如Markdown、TXT等类型文件;
-
Office Word文档:不包括DOC类型的文件;
-
PDF文档;
-
表格文档:例如XLS、XLSX、CSV类型的文件;
-
专业格式文档:例如YAML、JSON文件;
如果文档中包含非文本的内容(例如二进制信息、音视频信息),相关的内容不会被处理。
输入和输出
-
文档提取器可以接受文档类型文件作为输入,可以是单文件,也可以是文件列表。
-
当文档提取器接受单文件作为输入时,输出是字符串类型的文本内容;
-
当文档提取器接受文件列表作为输入时,输出是字符串数组类型的文本内容。
常见用例
-
提取文档并让大模型总结关键信息:配合提示词,可以让大模型将用户关注的内容从文件中提取出来,例如合同条款提取、论文核心内容总结等;
-
提取文档:用于分析、建议索引或迁移等;
-
文档存储:将文档录入数据库、知识库等。