在构建知识库前,请先将知识数据导入百炼,作为知识库的初始知识来源。本文为您介绍如何使用百炼控制台进行数据导入。
通过API导入:API只支持将非结构化数据导入百炼。如需导入结构化数据,请使用百炼控制台。若要实现结构化知识库的自动更新,可基于RDS数据表构建知识库。
通过RDS导入:如果您打算基于RDS数据表构建知识库,请参阅创建知识库。
操作步骤
百炼控制台支持导入非结构化数据和结构化数据。非结构化数据指未按某个预定义的表结构组织的数据,而结构化数据指按某个预定义的表结构组织的数据。
以下情况,请选择非结构化数据:
文档为pdf、docx、doc、txt、markdown、pptx、ppt、png、jpg、jpeg、bmp、gif等格式。
有多个xlsx或xls文档,但它们的表结构可能不同。
从阿里云对象存储OSS导入文档。
以下情况,请选择结构化数据:
有多个xlsx或xls文档,且它们的表结构完全一致。
文档为xlsx或xls格式,将用于FAQ问答类场景。例如Excel文档包含两列,分别为
问题
和答案
。基于结构化数据创建的知识库允许您限定问题
列用于知识库检索,答案
列用于大模型回答参考(基于非结构化数据创建的知识库难以实现此效果)。
前往应用数据页面,选择非结构化数据页签。
在左侧类目管理下,选择需要导入数据的类目。
单击
图标创建类目或选择默认类目进行导入。每个业务空间最多创建500个类目。
每个业务空间最多上传10万个文档。
单击导入数据,进入导入数据页面。
选择文档解析器,默认为阿里云文档智能解析(暂不支持更改,您可以通过数据解析设置为不同文档格式配置相应的解析规则,以提升文档解析效果)。
为文档配置标签(可选)。
通过API调用应用时,可以在请求参数
tags
中指定标签。应用在检索知识库时,会先根据标签筛选相关文档,从而提高检索效率。对于智能体应用,您还可以在控制台编辑应用时直接设置标签(开启 )。单击确认,系统将开始解析并导入文档。整个过程需一定时间,请耐心等待。
文档解析会将上传文档转换成百炼可处理的格式。在请求高峰时段,该过程可能需要较长时间,请耐心等待。
解析和导入完成后,单击相应文档右侧的详情即可查看导入的文档。
您可以查看最近90天内导入的文档,超过此时间范围的文档将无法查看。
前往应用数据页面,选择结构化数据页签。
新建数据表或选择现有数据表进行导入。
每个业务空间最多创建1000张数据表,每张表累计可导入的数据上限为10万行(包括表头)。行数超过此限制将导致导入失败。请您自行提前对表格中数据进行分割。
新建数据表进行导入选择现有数据表进行导入单击
图标新建数据表。
自定义数据表名称。
配置表结构,选择可直接上传Excel或自定义表头。
操作
说明
直接上传Excel
百炼将自动识别上传文档中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。
自定义表头
列名为必填参数,描述为选填参数,类型为必填参数。
创建数据表后将无法再修改列名、描述以及类型。
这里定义的数据表结构,必须和待导入的数据表的结构完全相同,否则会导入失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。您可以通过单击新增字段或操作列的删除,来增加或删减字段。
设置字段类型为link时,请确保链接公开可访问且指向一个有效的图片文件,否则知识库无法识别该图片。
link格式示例:https://example.com/downloads/pic.jpg
创建知识库时,link类型字段用于生成图片索引。百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
上传文档以导入数据。
单击
选择并上传文档(xlsx或xls格式)。
文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
上传成功后,单击预览可查看导入的数据。
单击确定。在左侧数据表管理的导航树中出现新增的数据表。
从左侧的数据表管理列表中选择相应的数据表,然后单击导入数据。
导入类型选择覆盖上传或增量上传。
您可以单击页面上的下载模板,获取一个仅包含表头的空白文档。您可以在该文档中插入新数据,随后直接将其用于覆盖上传或增量上传。
单击
选择并上传文档(xlsx或xls格式)。
文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
上传成功后,单击预览可查看导入的数据。
下一步
更多
从OSS导入数据配置说明
如果您是首次从 OSS 向百炼导入数据,请先按照界面提示完成授权,并为目标 OSS Bucket 添加bailian-datahub-access
标签,然后再进行导入。
如果您尚不清楚主账号和子账号的概念和区别,请先阅读权限管理。
单击前往授权。
在弹出的对话框中,单击确认授权,系统将为您自动开通OSS服务关联角色(必要条件)。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办。
为目标 OSS Bucket 添加
bailian-datahub-access
标签。该标签用于标记百炼可访问的 Bucket,未标记的 Bucket 百炼无法访问。
访问OSS管理控制台,单击左侧导航栏中的Bucket 列表,即可查看您已创建的Bucket。
在待添加标签的Bucket标签列,悬停鼠标于
图标上,然后单击前往编辑。
单击创建标签。
单击标签,添加标签名为
bailian-datahub-access
,标签值为read
的标签,然后单击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
请注意,百炼不支持访问保存在 Bucket 根目录下的文件。请您选择 Bucket 下的现有文件夹或新建一个文件夹供百炼访问。
单击前往授权。
在弹出的对话框中,单击确认授权。界面会提示授权失败、当前用户没有创建服务关联角色的权限(因为当前子账号没有创建服务关联角色的权限。接下来需要先授予子账号创建服务关联角色的权限,再授予子账号通过百炼访问OSS的权限)。
授予子账号创建服务关联角色的权限。
需主账号登录RAM控制台,在左侧导航栏,选择 ,然后单击页面上的创建权限策略。
在脚本编辑的
Effect
、Action
、Resource
、Condition
中分别输入以下脚本中的对应内容后,单击确定。{ "Action": [ "ram:CreateServiceLinkedRole" ], "Resource": "*", "Effect": "Allow", "Condition": { "StringEquals": { "ram:ServiceName": "datahub.sfm.aliyuncs.com" } } }
输入权限策略名称后,单击确定。
在左侧导航栏,选择
。在页面列表中找到待授权的子账号,然后单击子账号操作列的添加权限。在权限策略中选择刚才创建的权限策略(自定义策略),单击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。
授权子账号通过百炼访问OSS。
返回导入数据页面,单击前往授权。
在弹出的对话框中,单击确认授权,系统将为您自动开通OSS服务关联角色(必要条件)。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办。
为目标 OSS Bucket 添加
bailian-datahub-access
标签。该标签用于标记百炼可访问的 Bucket,未标记的 Bucket 百炼无法访问。
访问OSS管理控制台,单击左侧导航栏中的Bucket 列表,即可查看您已创建的Bucket。
在待添加标签的Bucket标签列,悬停鼠标于
图标上,然后单击前往编辑。
单击创建标签。
单击标签,添加标签名为
bailian-datahub-access
,标签值为read
的标签,然后单击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
请注意,百炼不支持访问保存在 Bucket 根目录下的文件。请您选择 Bucket 下的现有文件夹或新建一个文件夹供百炼访问。
常见问题
遇到“10041495”报错怎么办?
一般是由于主账号尚未开通对象存储服务 OSS,处理步骤:
需主账号前往OSS管理控制台,按界面指引开通 OSS。
返回百炼导入数据页面,再尝试授权。
- 本页导读 (1)
- 操作步骤
- 下一步
- 更多
- 从OSS导入数据配置说明
- 常见问题