数据导入操作说明

本文为您介绍数据导入的过程。

导入至数据管理的原始文档仅用于导入知识库前的临时存储,不支持长期保存,请自行妥善保存原文档。

操作步骤

数据管理支持导入的数据类型分为结构化数据非结构化数据两种。

说明

以下情况,建议选择非结构化数据

  • 文档为pdf、docx、doc、txt、markdown、pptx、ppt、png、jpg、jpeg、bmp、gif等格式。

  • 文档为xlsxxls格式,但不同文档的表结构可能不完全相同。

  • 从阿里云对象存储OSS导入文档。

以下情况,建议选择结构化数据

  • 文档为xlsxxls格式,且不同文档的表结构完全相同。

  • 文档为xlsxxls格式,将用于FAQ问答类场景。例如Excel文档包含两列,分别为问题答案。结构化数据允许您限定问题列用于知识库检索,答案列用于大模型回答参考(非结构化数据难以实现此效果)。

API目前只支持导入非结构化数据,详情参见数据中心 - 添加文档

导入非结构化数据

  1. 在百炼的数据管理页面,选择非结构化数据页签。

  2. 在左侧类目管理下,选择需要导入数据的类目。

    单击image图标创建类目或选择默认类目进行导入。每个业务空间最多创建1000个类目。
    每个业务空间最多上传10万个文档。

    image

  3. 单击导入数据,进入导入数据页面

  4. 导入方式选择本地上传OSS

    百炼支持的OSS Bucket存储类型不包括归档、冷归档或深度冷归档。支持内容加密的Bucket。支持私有的Bucket。
    OSS Bucket需添加bailian-datahub-access标签以供百炼访问,具体操作请参见OSS数据导入授权操作说明
    百炼暂不支持访问OSS根目录下的文件,请您在Bucket下选择已有的子目录或新建一个子目录供百炼访问。
  5. 选择文档解析器,默认为阿里云文档智能解析(暂不支持更改)。

    对于文档中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文档中其它非图片内容一起被切分并转换为向量,参与知识库的检索。
  6. 为文档配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文档,从而提高检索效率。对于智能体应用,您还可以在控制台编辑应用时直接设置标签(开启知识库检索增强 > 配置知识库 > 知识库高级配置 > 标签过滤)。
  7. 单击确认,系统将开始解析并导入文档。整个过程需一定时间,请耐心等待。

    文档解析会将上传文档转换成百炼可处理的格式。在请求高峰时段,该过程可能需要较长时间,请耐心等待。

    image

  8. 解析和导入完成后,单击相应文档右侧的详情即可查看导入的文档。

导入结构化数据

  1. 在百炼的数据管理页面,选择结构化数据页签。

  2. 新建数据表或选择现有数据表进行导入。

    每个业务空间最多创建1000张数据表,每张表累计可导入的数据上限为50000行(包括表头)。行数超过此限制将导致导入失败。请您自行提前对表格中数据进行分割。

    新建数据表进行导入

    单击image图标新建数据表

    image

    1. 自定义数据表名称

    2. 配置表结构,可选择直接上传Excel自定义表头

      操作

      说明

      直接上传Excel

      百炼将自动识别上传文档中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。

      自定义表头

      列名为必填参数,描述为选填参数,类型为必填参数。

      重要
      • 创建数据表后将无法再修改列名、描述以及类型

      • 这里定义的数据表结构,必须和待导入的数据表的结构完全相同,否则会导入失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。您可以通过单击新增字段操作列的删除,来增加或删减字段。

      • 设置字段类型link时,请确保链接公开可访问且指向一个有效的图片文件,否则知识库无法识别该图片。

        link格式示例:https://example.com/downloads/pic.jpg
        创建知识库时,link类型字段用于生成图片索引。百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。

      image

    3. 上传文档以导入数据。

      1. 单击image选择并上传文档(xlsxxls格式)。

        文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
      2. 上传成功后,单击预览可查看导入的数据。

    4. 单击确定。在左侧数据表管理的导航树中出现新增的数据表。

      image

    选择现有数据表进行导入

    从左侧的数据表管理列表中选择相应的数据表,然后单击导入数据

    1. 导入类型选择覆盖上传增量上传

      您可以单击页面上的下载模板,获取一个仅包含表头的空白文档。您可以在该文档中插入新数据,随后直接将其用于覆盖上传或增量上传。
    2. 单击image选择并上传文档(xlsxxls格式)。

      文档中必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
    3. 上传成功后,单击预览可查看导入的数据。

后续步骤

数据导入后,您可将其应用于知识库。具体操作请参见知识库