文档提取器

定义

文档提取节点支持您在工作流中解析特定格式的文档,并将其中的文本内容提取出来。它能将文件转换为文本,让不支持多模态的大模型拥有一定的文本处理的能力,同时可以降低大模型处理文件的成本。

支持的文档类型见下文。

前置条件

使用示例

  1. 在开始时,声明单文件或多文件类型的变量,例如file。image

  2. 添加文档提取器节点,并将文件变量作为输入。image

  3. 添加结束文件。image

  4. 测试,输入文件地址,并执行。image

支持的文档类型

  • 文本文档:例如Markdown、TXT等类型文件;

  • Office Word文档:不包括DOC类型的文件;

  • PDF文档

  • 表格文档:例如XLS、XLSX、CSV类型的文件;

  • 专业格式文档:例如YAML、JSON文件;

说明

如果文档中包含非文本的内容(例如二进制信息、音视频信息),相关的内容不会被处理。

输入和输出

  • 文档提取器可以接受文档类型文件作为输入,可以是单文件,也可以是文件列表。

  • 当文档提取器接受单文件作为输入时,输出是字符串类型的文本内容;

  • 当文档提取器接受文件列表作为输入时,输出是字符串数组类型的文本内容。

常见用例

  • 提取文档并让大模型总结关键信息:配合提示词,可以让大模型将用户关注的内容从文件中提取出来,例如合同条款提取、论文核心内容总结等;

  • 提取文档:用于分析、建议索引或迁移等;

  • 文档存储:将文档录入数据库、知识库等。