本文为您介绍数据导入的过程。
操作步骤
支持导入的数据类型分为结构化数据和非结构化数据两种。
以下情况,建议选择非结构化数据:
文档为pdf、docx、doc、txt、markdown、pptx、ppt、png、jpg、jpeg、bmp、gif等格式。
文档为xlsx或xls格式,但不同文档的表结构可能不完全相同。
从阿里云对象存储OSS导入文档。
以下情况,建议选择结构化数据:
文档为xlsx或xls格式,且不同文档的表结构完全相同。
文档为xlsx或xls格式,将用于FAQ问答类场景。例如Excel文档包含两列,分别为
问题
和答案
。结构化数据允许您限定问题
列用于知识库检索,答案
列用于大模型回答参考(非结构化数据难以实现此效果)。从阿里云数据库RDS的数据表导入数据。
API目前只支持导入非结构化数据,详情参见数据中心 - 添加文档。
导入非结构化数据
在百炼的数据管理页面,选择非结构化数据页签。
在左侧类目管理下,选择需要导入数据的类目。
单击图标创建类目或选择默认类目进行导入。百炼对类目创建数量没有限制。
每个业务空间最多上传10万个文档。
单击导入数据,进入导入数据页面。
选择文档解析器,默认为阿里云文档智能解析(暂不支持更改)。
对于文档中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文档中其它非图片内容一起被切分并转换为向量,参与知识库的检索。
为文档配置标签(可选)。
通过API调用应用时,可以在请求参数
tags
中指定标签。应用在检索知识库时,会先根据标签筛选相关文档,从而提高检索效率。对于智能体应用,您还可以在控制台编辑应用时直接设置标签(开启 )。单击确认,系统将开始解析并导入文档。整个过程需一定时间,请耐心等待。
文档解析会将上传文档转换成百炼可处理的格式。在请求高峰时段,该过程可能需要较长时间,请耐心等待。
解析和导入完成后,单击相应文档右侧的详情即可查看导入的文档。
导入结构化数据
在百炼的数据管理页面,选择结构化数据页签。
新建数据表或选择现有数据表进行导入。
每个业务空间最多创建1000张数据表,每张表累计可导入的数据上限为50000行(包括表头)。行数超过此限制将导致导入失败。请您自行提前对表格中数据进行分割。
新建数据表进行导入
单击图标新建数据表。
自定义数据表名称。
配置表结构,可选择直接上传Excel或自定义表头。
操作
说明
直接上传Excel
百炼将自动识别上传文档中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。
自定义表头
列名为必填参数,描述为选填参数,类型为必填参数。
重要创建数据表后将无法再修改列名、描述以及类型。
这里定义的数据表结构,必须和待导入的数据表的结构完全相同,否则会导入失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。您可以通过单击新增字段或操作列的删除,来增加或删减字段。
设置字段类型为link时,请确保链接公开可访问且指向一个有效的图片文件,否则知识库无法识别该图片。
link格式示例:https://example.com/downloads/pic.jpg
创建知识库时,link类型字段用于生成图片索引。百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
上传文档以导入数据。
单击选择并上传文档(xlsx或xls格式)。
文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
上传成功后,单击预览可查看导入的数据。
单击确定。在左侧数据表管理的导航树中出现新增的数据表。
选择现有数据表进行导入
从左侧的数据表管理列表中选择相应的数据表,然后单击导入数据。
导入类型选择覆盖上传或增量上传。
您可以单击页面上的下载模板,获取一个仅包含表头的空白文档。您可以在该文档中插入新数据,随后直接将其用于覆盖上传或增量上传。
单击选择并上传文档(xlsx或xls格式)。
文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
上传成功后,单击预览可查看导入的数据。
后续步骤
数据导入后,您可将数据应用于知识索引。具体操作请参见知识索引。