在构建知识库前,请先将知识数据导入阿里云百炼,作为知识库的初始知识来源。
RAM用户(子账号):如需执行数据导入、创建知识库等写入类操作,须获取管理员
(或至少包含应用数据-操作
与知识库-操作
)页面权限。
操作指南
导入本地文件
进入文件页签。
在左侧类目管理下,选择一个现有类目,或点击
图标新建类目。
阿里云百炼通过类目管理导入的文件。
点击导入数据,进入导入数据界面。导入方式选择本地上传。
选择解析器,默认为文档智能解析(暂不支持更改,可通过数据解析设置为不同格式配置相应的解析规则,以提升解析效果)。
为文件配置标签(可选)。
通过API调用应用时,可以在请求参数
tags
中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台调试知识库时设置标签。点击确认,系统将开始解析和导入,可在页面查看任务进度。
文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
导入完成后,点击相应文件右侧的详情即可查看导入的文件。
文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
仅支持查看最近90天内导入的文件。超过此时间范围后,导入的文件将无法查看,但不会被删除。
导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。
导入本地表格
进入表格页签。
在左侧数据表管理下,选择一个现有数据表,或点击
图标新建数据表。
阿里云百炼通过数据表管理导入的数据。
导入到新数据表
输入数据表名称。并配置表结构,选择可直接上传Excel或自定义表头。
直接上传Excel:阿里云百炼将自动识别上传文件中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。
自定义表头:列名为必填参数,描述为选填参数,类型为必填参数。
重要数据表的结构(列名、描述以及类型)一旦确定,无法修改。
上传文件的表结构必须与待导入数据文件的结构(列数、列名)完全一致,否则导入会失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。可通过点击新增字段或操作列的删除,来增加或删减字段。
为帮助模型理解各字段含义(如
age
表示年龄),请在“描述”中提供清晰的自然语言说明。若字段类型设为
link
,请确保链接是公开可访问的图片URL。知识库会用此链接抓取图片并为其生成向量索引,用于以图搜图等场景。link格式示例:https://example.com/downloads/pic.jpg
创建知识库时,link类型字段用于生成图片索引。阿里云百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
点击
图标选择并上传文件(XLSX或XLS格式)。
文件必须包含表头,否则会导入失败。
点击确定,开始导入。完成后,左侧的数据表管理导航树中将出现新数据表。
导入到现有数据表
在左侧的数据表管理列表中选择相应的数据表,然后点击导入数据。
导入类型选择覆盖上传或增量上传。
点击界面上的下载模板,可获取一个仅包含表头的空白文件。您可直接在该文件中插入新数据,然后将其用于覆盖上传或增量上传。
点击
图标选择并上传文件(XLSX或XLS格式)。
文件必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
导入OSS文件
进入文件页签。
在左侧类目管理下,选择一个现有类目,或点击
图标新建类目。
阿里云百炼通过类目管理导入的文件。
点击导入数据,进入导入数据界面。导入方式选择OSS。
首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加
bailian-datahub-access
标签以供阿里云百炼访问。操作指南请参见从OSS导入文件配置说明。不支持归档、冷归档或深度冷归档存储类型的 Bucket。不支持开启Referer防盗链的Bucket。
不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
支持内容加密的 Bucket。支持私有的 Bucket。
选择解析器,默认为文档智能解析(暂不支持更改,可通过数据解析设置为不同格式配置相应的解析规则,以提升解析效果)。
为文件配置标签(可选)。
通过API调用应用时,可以在请求参数
tags
中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台编辑应用时直接设置标签(启用 )。点击确认,系统将开始解析和导入,可在页面查看任务进度。
文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
导入完成后,点击相应文件右侧的详情即可查看导入的文件。
文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。
导入RDS MySQL数据
新建数据源前需开通阿里云事件总线EventBridge服务。
阿里云百炼与RDS实例必须归属同一阿里云账号。否则请按照导入自建MySQL数据中步骤操作。
进入数据源页面,点击 。
输入数据源名称,数据源类型选择阿里云RDS MySQL。
RDS实例限制:目前只支持MySQL引擎(版本无限制),暂不支持PostgreSQL等其它引擎;实例地域不限;只支持基础系列和高可用系列(暂不支持开启数据库代理);创建RDS实例时,网络类型必须是专有网络,加入白名单需选是(将VPC网段加入到RDS实例白名单中)。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为1000万行,且每一行记录的大小必须控制在100KB以内。若最大行数限制无法满足实际业务需求,可提交工单申请调整。
网络类型选择公网或私网。
私网数据源仅支持部分地域的RDS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。
新建公网数据源
为确保知识库能正常接收RDS数据,请为RDS实例设置EventBridge白名单。
若未正确设置白名单,创建数据源时会提示
Communications link failure
。填写数据源相关配置:
配置项
说明
数据源名称
数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。
数据库实例
填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。
数据库地址
填写RDS实例的外网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航栏中的数据库连接,即可查看该实例对应的外网地址。
若该 RDS 实例未开通外网地址,请先按照界面指引完成 RDS 外网地址开通。
数据库端口
填写RDS实例的外网端口。该信息同样可以在RDS实例的数据库连接界面获取。
数据库用户名
数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号。
使用普通账号创建数据源时会提示
There is no permission:RELOAD
。点击创建数据源,提交新建任务。系统将自动配置 RDS 数据源,期间业务空间将被锁定,无法同时创建其他数据源。
首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。
在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。
状态
说明
创建成功
表示数据源创建成功。请选择该数据源并执行下一步。
创建失败
表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。
新建私网数据源
填写数据源相关配置:
配置项
说明
数据源名称
数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。
所属地域
数据库实例
填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。
数据库地址
填写RDS实例的内网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航中的数据库连接,即可查看该实例对应的内网地址。
数据库端口
填写RDS实例的内网端口。该信息同样可以在RDS实例的数据库连接界面获取。
数据库用户名
数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号。
使用普通账号创建数据源时会提示
There is no permission:RELOAD
。连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。
首次检测时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。
VPC ID
应填写RDS实例的VPC ID。该信息同样可以在RDS实例的数据库连接界面获取。
VSwitch IDs
将鼠标悬浮于RDS实例的VPC ID上即可显示VSwitch ID。
RDS MySQL高可用系列实例可能拥有多个 VSwitch ID,请完整填写该实例关联的所有 VSwitch ID。
安全组ID
可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台的安全组界面创建安全组。该安全组需满足以下要求:
安全组的地域需与上方所属地域保持一致;
安全组的网络需选择RDS所在的VPC;
安全组类型支持普通安全组和企业级安全组。
安全组的网络入方向未设置任何访问限制;
正确示例:
错误示例:
连通性检测通过后,点击创建数据源,提交新建任务。系统将为您自动配置RDS数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。
在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。
状态
说明
创建成功
表示数据源创建成功。请选择该数据源并执行下一步。
创建失败
表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。
导入自建MySQL数据
新建数据源前需开通阿里云事件总线EventBridge服务。
进入数据源页面,点击 。
输入数据源名称,数据源类型选择自建MySQL。
自建MySQL限制:必须部署在阿里云ECS实例(地域不限)上;目前只支持MySQL 5.6、5.7和8.0;不支持MySQL代理Proxy。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为1000万行,且每一行记录的大小必须控制在100KB以内。若最大行数限制无法满足实际业务需求,可提交工单申请调整。
网络类型选择公网或私网。
私网数据源仅支持部分地域的ECS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。
新建公网数据源
为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。
若未正确配置白名单,创建数据源时会提示
Communications link failure
。填写数据源相关配置:
配置项
说明
数据源名称
数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。
数据库地址
填写您自建MySQL的公网地址。
数据库端口
填写您自建MySQL的端口。
数据库用户名
填写您在前面加白步骤中执行过GRANT授权的数据库账号。
点击创建数据源,提交新建任务。系统将为您自动配置自建MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。
首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。
在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。
状态
说明
创建成功
表示数据源创建成功。请选择该数据源并执行下一步。
创建失败
表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。
新建私网数据源
为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。
若未正确配置白名单,创建数据源时会提示
Communications link failure
。填写数据源相关配置:
配置项
说明
数据源名称
数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。
所属地域
请选择您自建MySQL所部署ECS实例所在地域。该信息可以前往ECS控制台获取。
数据库地址
填写您自建MySQL的私网地址。您可以在ECS的实例界面获取该信息:前往ECS控制台,点击左侧导航栏中的实例,即可查看对应实例的私网地址。
数据库端口
填写您自建MySQL的端口。
数据库用户名
填写您在前面加白步骤中执行过GRANT授权的数据库账号。
连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。
首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。
VPC ID
填写您自建MySQL所部署ECS实例所在VPC的实例ID(vpc-xxxxxx)。该信息同样可以前往ECS控制台获取。
VSwitch IDs
实例VPC ID下方即是VSwitch ID(vsw-xxxxxx)。
安全组ID
可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台的安全组界面创建安全组。该安全组需满足以下要求:
安全组的地域需与上方所属地域保持一致;
安全组的网络需选择ECS所在的VPC;
安全组类型支持普通安全组和企业级安全组。
入方向未设置任何访问限制;
正确示例:
错误示例:
连通性检测通过后,点击创建数据源,提交新建任务。系统将为您自动配置MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。
在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。
状态
说明
创建成功
表示数据源创建成功。请选择该数据源并执行下一步。
创建失败
表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。
下一步
更多
从OSS导入文件配置说明
首次从OSS导入文件时,需要授权阿里云百炼访问OSS资源。主账号与子账号的授权流程不同。
主账号授权
如下图所示,点击前往授权。
在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色,允许阿里云百炼访问OSS资源。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办
为目标 OSS Bucket 添加
bailian-datahub-access
标签。该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标 Bucket。
悬停鼠标在其
图标上,然后点击编辑。
在Bucket标签页面,点击创建标签。
点击标签,添加标签名为
bailian-datahub-access
,标签值为read
的标签,然后点击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
请注意,阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
子账号授权
如下图所示,点击前往授权。
在弹出的对话框中,点击确认授权。若界面提示授权失败、当前用户没有创建服务关联角色的权限,需先授予子账号创建服务关联角色的权限。
需主账号登录RAM控制台,在左侧导航栏,选择 ,然后点击页面上的创建权限策略。
点击脚本编辑,将下方提供的完整JSON策略复制并粘贴至编辑框,点击确定。
{ "Action": [ "ram:CreateServiceLinkedRole" ], "Resource": "*", "Effect": "Allow", "Condition": { "StringEquals": { "ram:ServiceName": "datahub.sfm.aliyuncs.com" } } }
输入权限策略名称后,点击确定。
在左侧导航栏,选择
。在页面列表中找到待授权的子账号,然后点击子账号操作列的添加权限。在权限策略中选择刚才创建的权限策略(自定义策略),点击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。
授权子账号通过阿里云百炼访问OSS。
返回导入数据页面,点击前往授权。
在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色(必要条件)。
通常秒级生效,服务高峰期可能会稍有延迟。
遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办
为目标 OSS Bucket 添加
bailian-datahub-access
标签。该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标Bucket。
悬停鼠标在其
图标上,然后点击编辑。
点击创建标签。
点击标签,添加标签名为
bailian-datahub-access
,标签值为read
的标签,然后点击保存。
返回导入数据页面,重新选择目标 Bucket 再尝试导入。
请注意,阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
配额与限制
关于支持的数据格式与容量,请参见知识库配额与限制。