数据导入

更新时间:2025-04-03 07:23:34

在构建知识库前,请先将知识数据导入百炼,作为知识库的初始知识来源。本文为您介绍如何使用百炼控制台进行数据导入。

说明
  • 通过API导入:API只支持将非结构化数据导入百炼。如需导入结构化数据,请使用百炼控制台。若要实现结构化知识库的自动更新,可基于RDS数据表构建知识库。

  • 通过RDS导入:如果您打算基于RDS数据表构建知识库,请参阅创建知识库

操作步骤

百炼控制台支持导入非结构化数据结构化数据非结构化数据指未按某个预定义的表结构组织的数据,而结构化数据指按某个预定义的表结构组织的数据。

以下情况,请选择非结构化数据

  • 文档为pdf、docx、doc、txt、markdown、pptx、ppt、png、jpg、jpeg、bmp、gif等格式。

  • 有多个xlsxxls文档,但它们的表结构可能不同

  • 从阿里云对象存储OSS导入文档。

以下情况,请选择结构化数据

  • 有多个xlsxxls文档,且它们的表结构完全一致

  • 文档为xlsxxls格式,将用于FAQ问答类场景。例如Excel文档包含两列,分别为问题答案。基于结构化数据创建的知识库允许您限定问题列用于知识库检索,答案列用于大模型回答参考(基于非结构化数据创建的知识库难以实现此效果)。

非结构化数据
结构化数据
  1. 前往应用数据页面,选择非结构化数据页签。

  2. 在左侧类目管理下,选择需要导入数据的类目。

    单击image图标创建类目或选择默认类目进行导入。每个业务空间最多创建500个类目。
    每个业务空间最多上传10万个文档。

    image

  3. 单击导入数据,进入导入数据页面

  4. 导入方式选择本地上传OSS

    如果您是首次从 OSS 向百炼导入数据,需要先按照界面提示完成授权,并为目标Bucket添加bailian-datahub-access标签以供百炼访问。详见OSS导入数据配置说明
    百炼支持的OSS Bucket存储类型不包括归档、冷归档或深度冷归档。支持内容加密的Bucket。支持私有的Bucket。
    百炼暂不支持访问OSS根目录下的文件,请您在Bucket下选择已有的子目录或新建一个子目录供百炼访问。
  5. 选择文档解析器,默认为阿里云文档智能解析(暂不支持更改,您可以通过数据解析设置为不同文档格式配置相应的解析规则,以提升文档解析效果)。

    数据解析设置

    您可以根据实际需求,配置解析策略,如果不确定建议您维持默认设置。有关文档智能解析大模型文档解析电子文档解析的详细说明,请参阅文档理解

    电子文档解析:不支持解析文档中的插图与图表。
    文档智能解析:对于文档中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文档中其它非图片内容一起被切分并转换为向量,参与知识库的检索。
    大模型文档解析:使用通义千问VL模型的智能体应用支持用户对文档中插图和图表的内容进行提问。如果您有此类需求(需要识别和理解文档中的插图与图表),请选择大模型文档解析

    image

    image

  6. 为文档配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文档,从而提高检索效率。对于智能体应用,您还可以在控制台编辑应用时直接设置标签(开启知识库检索增强 > 配置知识库 > 知识库高级配置 > 标签过滤)。
  7. 单击确认,系统将开始解析并导入文档。整个过程需一定时间,请耐心等待。

    文档解析会将上传文档转换成百炼可处理的格式。在请求高峰时段,该过程可能需要较长时间,请耐心等待。
  8. 解析和导入完成后,单击相应文档右侧的详情即可查看导入的文档。

    您可以查看最近90天内导入的文档,超过此时间范围的文档将无法查看。
  1. 前往应用数据页面,选择结构化数据页签。

  2. 新建数据表或选择现有数据表进行导入。

    每个业务空间最多创建1000张数据表,每张表累计可导入的数据上限为10万行(包括表头)。行数超过此限制将导致导入失败。请您自行提前对表格中数据进行分割。
    新建数据表进行导入
    选择现有数据表进行导入

    单击image图标新建数据表

    image

    1. 自定义数据表名称

    2. 配置表结构,选择可直接上传Excel自定义表头

      操作

      说明

      直接上传Excel

      百炼将自动识别上传文档中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。

      自定义表头

      列名为必填参数,描述为选填参数,类型为必填参数。

      重要
      • 创建数据表后将无法再修改列名、描述以及类型

      • 这里定义的数据表结构,必须和待导入的数据表的结构完全相同,否则会导入失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。您可以通过单击新增字段操作列的删除,来增加或删减字段。

      • 设置字段类型link时,请确保链接公开可访问且指向一个有效的图片文件,否则知识库无法识别该图片。

        link格式示例:https://example.com/downloads/pic.jpg
        创建知识库时,link类型字段用于生成图片索引。百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。

      image

    3. 上传文档以导入数据。

      1. 单击image选择并上传文档(xlsxxls格式)。

        文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
      2. 上传成功后,单击预览可查看导入的数据。

    4. 单击确定。在左侧数据表管理的导航树中出现新增的数据表。

      image

    从左侧的数据表管理列表中选择相应的数据表,然后单击导入数据

    1. 导入类型选择覆盖上传增量上传

      您可以单击页面上的下载模板,获取一个仅包含表头的空白文档。您可以在该文档中插入新数据,随后直接将其用于覆盖上传或增量上传。
    2. 单击image选择并上传文档(xlsxxls格式)。

      文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
    3. 上传成功后,单击预览可查看导入的数据。

下一步

创建知识库

更多

OSS导入数据配置说明

如果您是首次从 OSS 向百炼导入数据,请先按照界面提示完成授权,并为目标 OSS Bucket 添加bailian-datahub-access标签,然后再进行导入。

如果您尚不清楚主账号和子账号的概念和区别,请先阅读权限管理
使用主账号
使用子账号
  1. 单击前往授权

    image

  2. 在弹出的对话框中,单击确认授权,系统将为您自动开通OSS服务关联角色(必要条件)。

    通常秒级生效,服务高峰期可能会稍有延迟。
    遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

    image

  3. 为目标 OSS Bucket 添加bailian-datahub-access标签。

    该标签用于标记百炼可访问的 Bucket,未标记的 Bucket 百炼无法访问。
    1. 访问OSS管理控制台,单击左侧导航栏中的Bucket 列表,即可查看您已创建的Bucket。

    2. 在待添加标签的Bucket标签列,悬停鼠标于image图标上,然后单击前往编辑

      image

    3. 单击创建标签

      image

    4. 单击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后单击保存

      image

  4. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

    请注意,百炼不支持访问保存在 Bucket 根目录下的文件。请您选择 Bucket 下的现有文件夹或新建一个文件夹供百炼访问。
  1. 单击前往授权

    image

  2. 在弹出的对话框中,单击确认授权。界面会提示授权失败当前用户没有创建服务关联角色的权限(因为当前子账号没有创建服务关联角色的权限。接下来需要先授予子账号创建服务关联角色的权限,再授予子账号通过百炼访问OSS的权限)。

    image

  3. 授予子账号创建服务关联角色的权限。

    1. 需主账号登录RAM控制台,在左侧导航栏,选择权限管理 > 权限策略,然后单击页面上的创建权限策略

    2. 脚本编辑EffectActionResourceCondition中分别输入以下脚本中的对应内容后,单击确定

      {
          "Action": [
              "ram:CreateServiceLinkedRole"
          ],
          "Resource": "*",
          "Effect": "Allow",
          "Condition": {
              "StringEquals": {
                  "ram:ServiceName": "datahub.sfm.aliyuncs.com"
              }
          }
      }

      image

    3. 输入权限策略名称后,单击确定

      image

    4. 在左侧导航栏,选择身份管理 > 用户。在页面列表中找到待授权的子账号,然后单击子账号操作列的添加权限

    5. 在权限策略中选择刚才创建的权限策略(自定义策略),单击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。

      image

  4. 授权子账号通过百炼访问OSS。

    1. 返回导入数据页面,单击前往授权

      image

    2. 在弹出的对话框中,单击确认授权,系统将为您自动开通OSS服务关联角色(必要条件)。

      通常秒级生效,服务高峰期可能会稍有延迟。
      遇到“本次请求失败,尝试重新提交试试或联系管理员,错误码:10041495”怎么办

      image

  5. 为目标 OSS Bucket 添加bailian-datahub-access标签。

    该标签用于标记百炼可访问的 Bucket,未标记的 Bucket 百炼无法访问。
    1. 访问OSS管理控制台,单击左侧导航栏中的Bucket 列表,即可查看您已创建的Bucket。

    2. 在待添加标签的Bucket标签列,悬停鼠标于image图标上,然后单击前往编辑

      image

    3. 单击创建标签

      image

    4. 单击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后单击保存

      image

  6. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

    请注意,百炼不支持访问保存在 Bucket 根目录下的文件。请您选择 Bucket 下的现有文件夹或新建一个文件夹供百炼访问。

常见问题

  • 遇到“10041495”报错怎么办?

    一般是由于主账号尚未开通对象存储服务 OSS,处理步骤:

    1. 需主账号前往OSS管理控制台,按界面指引开通 OSS。

    2. 返回百炼导入数据页面,再尝试授权。

  • 本页导读 (1)
  • 操作步骤
  • 下一步
  • 更多
  • 从OSS导入数据配置说明
  • 常见问题