信息抽取
概述
信息抽取是根据信息抽取模板的要求进行的,因此首先需要配置模板。模板设置完成后,您可以上传文件并开始信息抽取过程。
步骤一:上传文件并提交抽取任务
抽取方式选择
对于Key-Value模板:
只能选择“检索增强生成”的抽取方法
对于提示词模板:
根据文件类型选择抽取方式:
长文本RAG:通过检索增强生成的方式,对长文本内容进行信息抽取,支持pdf、doc/docx,支持1000页
长文本理解:通过qwen-long或同类模型,对长文本内容进行信息抽取,支持pdf、doc/docx、xls/xlsx
图片处理:通过qwen-vl或同类模型,针对图片、表格类文件提取信息,支持pdf、jpg、jpeg、png、bmp
上传文件,并提交信息抽取任务
提交任务后,在文件夹列表中会显示每个文件的记录。抽取状态会定时刷新,也可以通过右上角的刷新按钮批量更新状态
如抽取失败,可以通过操作列的“重新抽取”重试
相关OpenAPI可以参考:
SubmitDocExtractionTask - 异步提交RAG、长文本理解信息抽取任务
SubmitVLExtractionTask - 异步提交VL信息抽取任务
步骤二:查看抽取结果
对于使用提示词模板抽取的文件
您可以在页面右侧的表格中查看模型提取的每个键对应的值
对于使用KV模板抽取的文件
您可以查看到召回的相关内容,点击片段可以定位到原文中的相应内容(有绿色框标记)
相关OpenAPI可以参考:
GetDocExtractionResult - 获取RAG、长文本理解文档抽取结果
GetVLExtractionResult - 获取文档VL抽取结果
AnalyzeVlRealtime - 获取VL实时解析结果