数据连接

更新时间:
复制 MD 格式

数据连接是阿里云百炼平台管理外部数据源的统一入口。通过创建数据连接器,阿里云百炼应用可以安全地访问企业数据库、文档系统和对象存储中的数据,在对话中实时查询和引用这些数据。

连接器类型

数据连接器按数据的存储和访问方式,分为平台托管流处理两大类:

联通格式

连接器类型

数据存储方式

适用场景

平台托管

文件

阿里云百炼平台或自有OSS

上传和管理非结构化文档(PDF、Word、Markdown等)

表格

阿里云百炼平台或自有OSS

导入和查询结构化表格数据(CSV、Excel等)

流处理

MySQL

数据保留在原数据库,实时访问

连接MySQL数据库

执行SQL查询(仅DMS导入数据源方式支持执行)

PostgreSQL

数据保留在原数据库,实时访问

连接PostgreSQL数据库

执行SQL查询(仅DMS导入数据源方式支持执行)

PolarDB-X 2.0

数据保留在原数据库,实时访问

连接阿里云 PolarDB-X 2.0 分布式数据库

执行SQL查询(仅DMS导入数据源方式支持执行)

语雀

数据保留在语雀,实时访问

访问语雀文档和知识库

OSS

数据保留在OSS,实时访问

访问对象存储中的文件

前置条件

在创建数据连接器前,请确保满足以下条件:

  • 账号权限:主账号或具有数据连接管理权限的 RAM 用户。RAM 用户需要主账号授权后才能使用数据连接功能。授权方法请参见权限管理

  • 数据源准备:

    • 文件/表格连接器:已准备好要上传的文档或表格文件,或已创建OSS Bucket。

    • MySQL连接器:已有MySQL数据库实例(阿里云RDS或自建),并确保网络可达(公网或私网)。

    • PostgreSQL连接器:已有PostgreSQL数据库实例,且已将wal_level参数设置为logical

    • PolarDB-X 2.0连接器:已有阿里云 PolarDB-X 2.0 实例,且实例所在地域支持私网访问。如需通过 DMS 导入数据源,请先在 DMS 中完成 PolarDB-X 实例的录入。

    • 语雀连接器:已有语雀知识库(仅支持公网版本语雀),并获取了个人访问 Token。

    • OSS连接器:已创建OSS Bucket,并开通了向量检索服务

创建连接器

  1. 访问数据连接页面,单击右上角的创建连接器

  2. 选择连接器类型,填写基本信息和存储位置。

    文件连接器

    文件连接器用于管理非结构化文档(PDF、Word等)。

    1. 在创建连接器页面,连接器类型选择文件。

    2. 填写基本信息:

      1. 连接器名称:使用易于识别的名称。

      2. 描述:填写连接器的用途说明。描述会用于指导应用调用的准确度,建议写明数据内容和用途。

    3. 选择存储位置

      • 使用平台存储:数据存储在阿里云百炼平台提供的存储空间中,提供最大100,000个文件,1 TB 存储额度,限时免费

      • 使用自有OSS存储:数据存储在您自己的OSS Bucket中,适用于大规模数据存储。

        说明
        • 首次使用需按界面提示完成授权。

        • 目标 Bucket 需要添加bailian-connector-access标签(值为ReadAndWrite)以供阿里云百炼访问。添加标签

    表格连接器

    表格连接器用于管理结构化数据(CSV、Excel等)。

    1. 在创建连接器页面,连接器类型选择表格

    2. 填写基本信息:

      1. 连接器名称:使用易于识别的名称。

      2. 描述:填写连接器的用途说明。描述会用于指导智能体调用的准确度,建议写明数据内容和用途。

    3. 选择存储位置

      • 使用平台存储:数据存储在阿里云百炼平台提供的存储空间中,提供1 TB免费额度,额度用完后自动转为按量付费。适用于小规模数据存储。

      • 使用自有OSS存储:数据存储在您自己的OSS Bucket中,适用于大规模数据存储。

        说明
        • 首次使用需按界面提示完成授权。

        • 目标 Bucket 需要添加bailian-connector-access标签(值为ReadAndWrite)以供阿里云百炼访问。添加标签

    MySQL连接器

    MySQL连接器属于流处理类型,用于连接MySQL数据库,使应用可以执行SQL查询获取实时数据。

    说明

    仅通过DMS导入数据源方式创建的MySQL连接器支持执行SQL查询。通过创建自定义数据源方式添加的MySQL连接器不支持直接执行SQL。

    1. 在创建连接器页面,选择MySQL类型。

    2. 填写连接器名称描述

    3. 配置数据来源信息:

      • 创建自定义数据源:手动配置数据库连接信息,通过公网或私网连接阿里云RDS或自建MySQL数据库。

        • 阿里云RDS MySQL:通过SLR授权,关联阿里云RDS服务下的MySQL数据库。选择后,数据库地址端口会根据实例ID自动获取,无需手动输入。

        • 自建MySQL:手动配置远端MySQL数据库的连接信息。需要手动输入数据库地址端口

      • DMS导入数据源:快速导入DMS(数据管理服务)中已创建的数据源。首次使用需完成SLR授权,包括EventBridge服务关联角色、RDS服务管理角色和DMS服务管理角色的授权。

    4. 选择网络类型:

      • 公网(默认):通过公网连接数据库。选择公网时,请务必将指定IP段加入数据库实例的白名单中。

      • 私网:通过内网连接数据库,需要额外选择所属地域。适用于生产环境,连接更稳定安全。

      • 填写数据库连接信息:

        配置项

        说明

        数据库实例

        仅阿里云RDS MySQL时显示。输入RDS实例ID,例如rm-******adq7

        数据库地址

        阿里云RDS MySQL时自动获取(禁用输入);自建MySQL时需手动输入。

        数据库端口

        阿里云RDS MySQL时自动填充为3306(禁用输入);自建MySQL时需手动输入。

        数据库用户名

        必填。输入数据库用户名,用于鉴权连接。

        数据库密码

        必填。输入数据库密码。请确保该用户具备数据库的读取权限。

      • (可选)单击开始检测,验证数据库连通性。

        系统通过EventBridge服务检测连通性,检测不收取费用。检测通过后,可以从选择DB下拉列表中选择要连接的数据库。

    PostgreSQL连接器

    PostgreSQL连接器支持连接阿里云RDS PostgreSQL实例或自建PostgreSQL数据库。

    说明

    仅通过DMS导入数据源方式创建的PostgreSQL连接器支持执行SQL查询。通过创建自定义数据源方式添加的PostgreSQL连接器不支持直接执行SQL。

    前置条件

    • 数据库账号必须具有高权限(Superuser或具有REPLICATION权限)。

    • 已将实例系统参数wal_level设置为logical(默认为replica)。

    • (仅自建实例)已配置listen_addresses参数,允许100.64.0.0/16网段访问。配置方法:

      1. 编辑配置文件:sudo vim /etc/postgresql/[版本]/main/pg_hba.conf

      2. 在文件顶部添加规则:host [数据库名] [用户名] 100.64.0.0/16 md5

      3. 重载配置:sudo systemctl reload postgresql

    1. 在创建连接器页面,选择PostgreSQL类型。

    2. 填写基本信息:连接器名称、描述(建议说明数据内容和用途)。

    3. 配置数据库连接:

      • 主机地址:数据库实例的连接地址(公网或私网)。

      • 端口:默认5432。

      • 数据库名称(dbName):必填字段,指定要连接的数据库。

      • 用户名:具有高权限的数据库账号。

      • 密码:数据库密码。

    4. 单击测试连通性,确保配置正确。PostgreSQL连接器使用DTS(数据传输服务)进行连通性检测。

    MySQLPostgreSQL差异对比:

    差异项

    MySQL

    PostgreSQL

    默认端口

    3306

    5432

    额外必填字段

    需额外填写dbName(数据库名称)

    连通性检测服务

    EventBridge

    DTS(数据传输服务)

    特殊配置要求

    需将实例系统参数wal_level修改为logical

    PolarDB-X 2.0连接器

    PolarDB-X 2.0连接器属于流处理类型,用于连接阿里云 PolarDB-X 2.0 分布式数据库,使应用可以执行SQL查询获取实时数据。

    说明

    仅通过DMS导入数据源方式创建的PolarDB-X 2.0连接器支持执行SQL查询。通过创建自定义数据源方式添加的PolarDB-X 2.0连接器不支持直接执行SQL。

    1. 在创建连接器页面,选择PolarDB-X 2.0类型。

    2. 填写连接器名称描述

    3. 配置数据来源信息:

      • 创建自定义数据源:通过 SLR 授权,关联阿里云 RDS 服务下的 PolarDB-X 2.0 数据库。数据库地址端口会根据所选实例自动获取,无需手动输入。

        首次使用需在弹窗中完成两个服务关联角色的授权:DTS 服务管理角色(AliyunServiceRoleForSFMConnectorAccessDTS)和 PolarDB-X 服务管理角色(AliyunServiceRoleForSFMAccessPolarDBX)。

      • DMS导入数据源:快速导入 DMS(数据管理服务)中已创建的 PolarDB-X 数据源。首次使用需完成 DMS、DTS 和 PolarDB-X 三个服务管理角色的 SLR 授权。

    4. 选择网络类型:仅支持私网。需要选择所属地域,通过内网连接 PolarDB-X 实例,适用于生产环境。

    5. 填写数据库连接信息:

      配置项

      说明

      数据库实例

      创建自定义数据源方式显示。从下拉列表中选择当前账号在所选地域下的 PolarDB-X 2.0 实例。

      选择数据源

      DMS导入数据源方式显示。从 DMS 数据源列表中选择 1 个 PolarDB-X 数据源,数据源连通性由 DMS 保障。

      数据库地址

      创建自定义数据源方式根据所选实例自动获取(禁用输入);DMS导入数据源方式需手动输入或确认。

      数据库端口

      创建自定义数据源方式根据所选实例自动获取(禁用输入);DMS导入数据源方式需手动输入或确认。

      数据库用户名

      必填。输入数据库用户名,用于鉴权连接。

      数据库密码

      必填。输入数据库密码。请确保该用户具备数据库的读取权限。

    6. (可选)单击开始检测,验证数据库连通性。检测通过后,可以从选择DB下拉列表中选择要连接的数据库。

    与 MySQL 连接器的主要差异:

    • 网络类型:仅支持私网,不支持公网。

    • 数据源:仅支持阿里云 PolarDB-X 2.0 实例,不支持自建数据库。

    • SLR 授权:首次使用时需在弹窗中显式同意 DTS 与 PolarDB-X 服务管理角色(DMS 方式还需 DMS 角色)的授权。

    语雀连接器

    语雀连接器用于访问语雀文档和知识库,使智能体可以检索和引用企业在语雀中的知识内容。

    仅支持公网版本语雀。
    1. 在创建连接器页面,选择语雀

    2. 填写连接器名称描述

    3. 访问语雀开放 API获取Tenant access token并填入在连接信息区域。

    4. 单击连接检测,验证Token有效性。输入Token后该按钮自动启用。

    OSS连接器

    OSS连接器用于访问对象存储中的文件,使应用可以读取和处理OSS中存储的各类文件。

    1. 在创建连接器页面,选择OSS类型。

    2. 填写连接器名称描述

    3. 存储Bucket选择下拉列表中,选择要连接的OSS Bucket。

    说明
    • 首次使用,需按界面提示完成授权。

    • 目标 Bucket 需添加bailian-datahub-access标签(值为read)以供阿里云百炼访问。添加标签

    • 如果下拉列表中没有显示Bucket,请确认已创建OSS Bucket,且当前账号拥有该Bucket的访问权限。

    • 使用OSS连接器需要开通向量检索服务。如果未开通,则无法使用searchOSSFile工具查询包含相关内容的文件及searchOSSFileByFileName工具根据文件名查询相关的文件。

    不支持归档、冷归档或深度冷归档存储类型的 Bucket。
    支持内容加密的 Bucket。支持私有的 Bucket。
    如需使用开启Referer防盗链Bucket,须参考防盗链将域名*.console.aliyun.com添加到白名单Referer中。
  3. 单击确认,完成创建。

导入数据

导入文件

点击文件连接器卡片详情,进入文件管理页面。

  1. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

    阿里云百炼通过类目管理导入的文件。
  2. 点击导入数据,进入导入数据界面导入方式选择本地上传

    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。
  3. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

    解析方式说明

    请根据实际需求配置解析策略,如不确定建议保持默认设置。有关文档智能解析大模型文档解析电子文档解析的详细说明,请参阅文档理解

    可选的解析方式取决于选择的文件类型(文档、图像、音频、视频)。
    • 电子文档解析:不支持解析文件中的插图与图表。

    • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

    • 大模型文档解析:使用选择模型模型的智能体应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

    • Qwen VL解析:仅支持解析图片格式。可自主选择千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

    • 音视频解析:对文件进行语音识别、视频帧提取(仅限视频)和剧情解析(仅限视频),最终将所有声画信息按时间轴结构化对齐。

      • 语音识别:字幕内容解析器通过录音文件识别将人类语音转为文本。暂不支持识别音乐或自然环境声(如喇叭声、钟声、雷声等)。

      • 视频帧提取:从原始视频中抽取有代表性的视觉画面,并生成相应的文本描述。

      • 剧情解析(需手动开启):分析视频内容,定位具体事件并标注时间戳,同时生成相应的文本描述。

  4. 为文件配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台调试知识库时设置标签。
  5. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

    文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
  6. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

    文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
    仅支持查看最近90天内导入的文件。超过此时间范围后,导入的文件将无法查看,但不会被删除。
    导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

导入表格

点击表格连接器卡片详情,进入数据管理页面。

在左侧数据表管理下,选择一个现有数据表,或点击image图标新建数据表。

阿里云百炼通过数据表管理导入的数据。

导入到新数据表

  1. 输入数据表名称。并配置数据表,选择可直接上传Excel自定义表头

    • 直接上传Excel:阿里云百炼将自动识别上传文件中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。

    • 自定义表头:列名为必填参数,描述为选填参数,类型为必填参数。

      重要
      • 数据表的结构(列名、描述以及类型)一旦确定,无法修改。

      • 上传文件的表结构必须与待导入数据文件的结构(列数、列名)完全一致,否则导入会失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。可通过点击新增字段操作列的删除,来增加或删减字段。

      • 为帮助模型理解各字段含义(如 age 表示年龄),请在“描述”中提供清晰的自然语言说明。

      • 若字段类型设为 image_url,请确保链接是公开可访问的图片URL。知识库会用此链接抓取图片并为其生成向量索引,用于以图搜图等场景。

        image_url格式示例:https://example.com/downloads/pic.jpg
        创建知识库时,image_url类型字段用于生成图片索引。阿里云百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
  2. 点击image图标选择并上传文件(XLSXXLS格式)。

    文件必须包含表头,否则会导入失败。
    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。
  3. 点击确定,开始导入。完成后,左侧的数据表导航树中将出现新数据表。

导入到现有数据表

  1. 在左侧的数据表列表中选择相应的数据表,然后点击导入数据

  2. 导入类型选择覆盖上传增量上传

    点击界面上的下载模板,可获取一个仅包含表头的空白文件。您可直接在该文件中插入新数据,然后将其用于覆盖上传或增量上传。
  3. 点击image图标选择并上传文件(XLSXXLS格式)。

    文件必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。

导入OSS文件

  • OSS连接器:点击卡片详情,进入工具页签,可搜索或获取OSS的指定文件下载链接。使用工具需开通向量检索服务

  • 文件连接器表格连接器:点击卡片详情,进入文件或表格管理页面。

    1. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

      阿里云百炼通过类目管理导入的文件。
    2. 点击导入数据,进入导入数据界面导入方式选择OSS

      首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加bailian-datahub-access标签以供阿里云百炼访问。
      不支持归档、冷归档或深度冷归档存储类型的 Bucket。
      不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
      支持内容加密的 Bucket。支持私有的 Bucket。
      如需使用开启Referer防盗链Bucket,须参考防盗链将域名*.console.aliyun.com添加到白名单Referer中。
    3. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

      解析方式说明

      请根据实际需求配置解析策略,如不确定建议保持默认设置。有关文档智能解析大模型文档解析电子文档解析的详细说明,请参阅文档理解

      • 电子文档解析:不支持解析文件中的插图与图表。

      • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

      • 大模型文档解析:使用选择模型模型的应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

      • Qwen VL解析:仅支持解析图片格式。可自主选择千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

      • 音视频解析:对文件进行语音识别、视频帧提取(仅限视频)和剧情解析(仅限视频),最终将所有声画信息按时间轴结构化对齐。

        • 语音识别:字幕内容解析器通过录音文件识别将人类语音转为文本。暂不支持识别音乐或自然环境声(如喇叭声、钟声、雷声等)。

        • 视频帧提取:从原始视频中抽取有代表性的视觉画面,并生成相应的文本描述。

        • 剧情解析(需手动开启):分析视频内容,定位具体事件并标注时间戳,同时生成相应的文本描述。

    4. 为文件配置标签(可选)。

      通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台编辑应用时直接设置标签(启用知识库 > +知识库 > 知识库高级配置 > 标签过滤)。
    5. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

      文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
    6. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

      文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
      导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

导入RDS MySQL数据

重要
  • 新建数据源前需开通阿里云事件总线EventBridge服务。

  • 阿里云百炼与RDS实例必须归属同一阿里云账号。否则请按照导入自建MySQL数据中步骤操作。

  • 导入大数据表(1,000,000行以上)时,耗时可能超过数据库本地日志的保留时长,造成数据重复导入。如何解决

RDS实例限制:目前只支持MySQL引擎(版本无限制),暂不支持PostgreSQL等其它引擎;实例地域不限;只支持基础系列高可用系列;创建RDS实例时,网络类型必须是专有网络,加入白名单需选(将VPC网段加入到RDS实例白名单中)。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100KB以内(超出将被截断)。

网络类型选择公网私网

私网数据源仅支持部分地域RDS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。

新建公网数据源

  1. 为确保知识库能正常接收RDS数据,请为RDS实例设置EventBridge白名单。

    若未正确设置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 访问RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航栏中的数据库连接,点击外网地址旁的设置白名单

    2. 点击添加白名单分组,并将以下 EventBridge 公网 IP 地址全部添加至白名单分组中。

      • 39.105.55.188,39.105.110.43,47.95.35.213,47.95.33.100,39.106.255.198,47.93.177.159,47.95.32.154,39.107.99.72

    3. 点击确定,白名单生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    数据库实例

    填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库地址

    填写RDS实例的外网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航栏中的数据库连接,即可查看该实例对应的外网地址。

    若该 RDS 实例未开通外网地址,请先按照界面指引完成 RDS 外网地址开通。
    高可用系列RDS请勿使用数据库代理连接区域的代理连接地址内网地址

    数据库端口

    填写RDS实例的外网端口。该信息同样可以在RDS实例的数据库连接界面获取。

    数据库用户名

    数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号

    使用普通账号创建数据源时会提示There is no permission:RELOAD
  3. 点击创建数据源,提交新建任务系统将自动配置 RDS 数据源,期间业务空间将被锁定,无法同时创建其他数据源。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限
    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

新建私网数据源

  1. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    所属地域

    选择RDS实例所在地域。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库实例

    填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库地址

    填写RDS实例的内网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航中的数据库连接,即可查看该实例对应的内网地址

    高可用系列RDS请勿使用数据库代理连接区域的代理连接地址内网地址

    数据库端口

    填写RDS实例的内网端口。该信息同样可以在RDS实例的数据库连接界面获取。

    数据库用户名

    数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号

    使用普通账号创建数据源时会提示There is no permission:RELOAD
  2. 连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

    首次检测时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限

    VPC ID

    应填写RDS实例的VPC ID。该信息同样可以在RDS实例的数据库连接界面获取。

    VPC ID 显示在该页面的网络类型区域中。

    VSwitch ID

    将鼠标悬浮于RDS实例的VPC ID上即可显示VSwitch ID。

    RDS MySQL高可用系列实例可能拥有多个 VSwitch ID,请完整填写该实例关联的所有 VSwitch ID。

    在 RDS 控制台左侧菜单选择数据库连接,在网络类型信息区域将鼠标悬浮于 VPC ID 上,即可在下方查看 VSwitch ID。

    安全组ID

    可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台安全组界面创建安全组。该安全组需满足以下要求:

    • 安全组的地域需与上方所属地域保持一致;

    • 安全组的网络需选择RDS所在的VPC,即在创建安全组页面的网络下拉框中选择RDS实例所在的VPC;

    • 安全组类型支持普通安全组和企业级安全组。

    • 安全组的网络入方向未设置任何访问限制;

      • 正确示例:

        安全组详情页中,安全组ID 以 sg 开头(此处部分信息已脱敏),组内连通策略组内互通安全组类型普通安全组访问规则 区域选中 入方向 Tab,当前入方向未设置任何访问规则限制(0 条)。

      • 错误示例:安全组入方向配置了 5 条允许规则(优先级均为 1):所有 ICMP-IPv4(端口 -1/-1)、自定义 TCP 端口 RDP(3389)、自定义 TCP 端口 SSH(22)、自定义 TCP 端口 HTTPS(443)、自定义 TCP 端口 HTTP(80),访问来源均为 0.0.0.0/0。入方向虽然允许任意 IP 访问,但仅开放了特定端口。

  3. 连通性检测通过后,点击确认,提交新建任务系统将为您自动配置RDS数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

导入自建MySQL数据

重要
  • 新建数据源前需开通阿里云事件总线EventBridge服务。

  • 导入大数据表(1,000,000行以上)时,耗时可能超过数据库本地日志的保留时长,造成数据重复导入。如何解决

自建MySQL限制:必须部署在阿里云ECS实例(地域不限)上;目前只支持MySQL 5.6、5.78.0;不支持MySQL代理Proxy。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100KB以内(超出将被截断)。若最大行数限制无法满足实际业务需求,可提交工单申请调整。

网络类型选择公网私网

私网数据源仅支持部分地域ECS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。

新建公网数据源

  1. 为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。

    若未正确配置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 访问ECS控制台,点击左侧导航栏中的安全组,找到与您自建MySQL关联的安全组,然后点击操作栏中的管理规则。

    2. 在安全组详情页,点击增加规则,将以下EventBridge公网IP地址全部添加至该安全组中,并且需要放行所有流量全部端口

      不可使用由第三方产品或服务间接创建的安全组。
      • 39.105.55.188,39.105.110.43,47.95.35.213,47.95.33.100,39.106.255.198,47.93.177.159,47.95.32.154,39.107.99.72

    3. 点击确定,安全组生效。

    4. 在您的MySQL中,创建一个允许全部来源流量的数据库账号(也可以使用已有账号)然后执行以下GRANT授权命令。

      请根据您的实际情况,将下方命令中的user1替换为您的实际数据库账号。
      -- 创建用户(合并为单条语句),请将user1替换为您的实际数据库账号
      CREATE USER 'user1'@'%' IDENTIFIED BY 'user1的密码';
      -- 授予基础权限(合并为单条语句),请将user1替换为您的实际数据库账号
      GRANT ALL PRIVILEGES ON *.* TO 'user1'@'%' WITH GRANT OPTION;
      -- 刷新权限(仅需一次)
      FLUSH PRIVILEGES;
    5. 通过修改MySQL配置文件开启BinlogGTID。以Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。

      [mysqld]
      log-bin=mysql-bin
      server-id=1
      binlog_format=ROW
      gtid_mode=ON
      enforce_gtid_consistency=ON
    6. 重启MySQL,配置文件生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    数据库地址

    填写您自建MySQL的公网地址。

    数据库端口

    填写您自建MySQL的端口。

    数据库用户名

    填写您在前面加白步骤中执行过GRANT授权的数据库账号。

  3. 点击创建数据源,提交新建任务系统将为您自动配置自建MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限
    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

新建私网数据源

  1. 为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。

    若未正确配置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 在您的MySQL中,创建一个允许全部来源流量的数据库账号(也可以使用已有账号)然后执行以下GRANT授权命令。

      请根据您的实际情况,将下方命令中的user1替换为您的实际数据库账号。
      -- 创建用户(合并为单条语句),请将user1替换为您的实际数据库账号
      CREATE USER 'user1'@'%' IDENTIFIED BY 'user1的密码';
      -- 授予基础权限(合并为单条语句),请将user1替换为您的实际数据库账号
      GRANT ALL PRIVILEGES ON *.* TO 'user1'@'%' WITH GRANT OPTION;
      -- 刷新权限(仅需一次)
      FLUSH PRIVILEGES;
    2. 通过修改MySQL配置文件开启BinlogGTID。以Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。

      [mysqld]
      log-bin=mysql-bin
      server-id=1
      binlog_format=ROW
      gtid_mode=ON
      enforce_gtid_consistency=ON
    3. 重启MySQL,配置文件生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    所属地域

    请选择您自建MySQL所部署ECS实例所在地域。该信息可以前往ECS控制台获取。

    数据库地址

    填写您自建MySQL私网地址。您可以在ECS实例界面获取该信息:前往ECS控制台,点击左侧导航栏中的实例,即可查看对应实例的私网地址

    数据库端口

    填写您自建MySQL的端口。

    数据库用户名

    填写您在前面加白步骤中执行过GRANT授权的数据库账号。

  3. 连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限

    VPC ID

    填写您自建MySQL所部署ECS实例所在VPC实例ID(vpc-xxxxxx)。该信息同样可以前往ECS控制台获取。

    在左侧导航栏选择实例与镜像 > 实例,在实例列表中找到目标实例,在专有网络列中即可查看对应的 VPC ID 和交换机 ID。

    VSwitch ID

    实例VPC ID下方即是VSwitch ID(vsw-xxxxxx)。

    安全组ID

    可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台安全组界面创建安全组。该安全组需满足以下要求:

    • 安全组的地域需与上方所属地域保持一致;

    • 安全组的网络需选择ECS所在的VPC;

    • 安全组类型支持普通安全组和企业级安全组。

    • 入方向未设置任何访问限制;

  4. 连通性检测通过后,点击创建数据源,提交新建任务系统将为您自动配置MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

导入自建PostgreSQL数据

重要

新建数据源前需开通数据传输服务DTS

自建PostgreSQL限制:
必须部署在阿里云ECS实例(地域不限)上。
数据库和表限制:
知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100 KB以内(超出将被截断)。若最大行数限制无法满足实际业务需求,可提交工单申请调整。

网络类型选择私网

仅支持部分地域的ECS实例。私网数据源在安全性和性能方面更具优势。

新建私网数据源

1. 填写数据源相关配置:

配置项

说明

所属地域

请选择您自建PostgreSQL所部署ECS实例所在地域。该信息可以前往ECS控制台获取。

数据库地址

填写您自建PostgreSQL的内网IP地址。您可以在ECS的实例界面获取该信息:前往ECS控制台,单击左侧导航栏中的实例,即可查看对应实例的内网IP地址。

数据库端口

填写您自建PostgreSQL的端口。默认为5432。

数据库用户名

填写您在前面配置步骤中授权的数据库账号。

数据库密码

填写数据库密码。

数据库名称

必填字段,指定要连接的数据库名称(dbName)。

ecsId

用于自建的pgsql实例的ecs实例的Id。

2. 连通性检测:单击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

首次提交任务时,请根据界面指引开通DTS服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。

配置项

说明

VPC ID

填写您自建PostgreSQL所部署ECS实例所在VPCID(vpc-xxxxxx)。该信息同样可以前往ECS控制台获取。

VSwitch ID

实例VPC ID下方即是VSwitch ID(vsw-xxxxxx)。

安全组

可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台的安全组界面创建安全组。该安全组需满足以下要求:

- 安全组的地域需与上方所属地域保持一致;

- 安全组的网络需选择ECS所在的VPC;

- 安全组类型支持普通安全组和企业级安全组。

- 入方向未设置任何访问限制。

3. 连通性检测通过后,单击确认,提交任务。系统将为您自动配置PostgreSQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

状态

说明

创建成功

表示数据源创建成功。请选择该数据源并执行选择数据表。

创建失败

表示数据源创建失败。请检查各项参数是否正确,修改后单击重新创建数据源。您可单击删除,删除创建失败的数据源。

查看连接器详情

连接器列表页,单击目标连接器的详情按钮,进入连接器详情页。详情页包含以下标签页:

  • 概览:显示连接器的基本信息(名称、描述、类型、创建时间、存储配额等)和自动生成的工具列表。

  • 文件/表格(仅平台托管类型):管理连接器中的文件或表格数据。

  • 工具:查看连接器自动生成的工具详情,包括参数说明和在线测试。

您可以在连接器详情页展开工具,填写参数后单击运行按钮,在线测试工具的返回结果。

同步数据规则

文件类型数据连接器文件页签下,可点击右上角的 同步数据规则->创建同步规则进入页面创建规则。

  1. 选择数据同步的类目

  2. 选择数据同步来源

    OSS

    通过阿里云服务关联角色(SLR)访问用户 Bucket,将 OSS 中的数据自动同步到百炼平台。

    重要
    • OSS 同步基于阿里云服务关联角色(SLR)访问用户 Bucket,无需配置 AccessKey。首次使用前请确保已初始化服务关联角色,按界面提示完成授权。

    • 对象路径列表需包含 Bucket 名称,例如:my-bucket/docs/my-bucket/docs/foo.md

    • 当前账号需具备目标 Bucket 的读取权限,且需要为目标 Bucket 添加bailian-datahub-access标签(值为read)以供阿里云百炼访问。参见管理存储空间标签

    填写以下 OSS 对象信息:

    参数

    是否必填

    说明

    OSS Region

    选择 OSS Bucket 所在的地域。可通过 OSS Region 一览查看支持的地域列表。

    OSS 对象路径

    输入需要同步的 OSS 对象路径,路径需包含 Bucket 名称。例如:my-bucket/docs/ 表示同步该目录下的所有文件;my-bucket/docs/foo.md 表示同步单个文件。

    同步周期

    选择数据自动同步的频率,例如一分钟。

    连接检测

    单击连接检测验证配置的 OSS 路径是否可正常访问。检测通过后方可提交规则。

    数据标签

    为同步的数据配置标签,便于后续分类管理。每个标签最多 32 个字符,支持中文、大小写英文字母、数字、下划线(_)和中划线(-)。输入后按回车确认添加。

    飞书

    通过以下步骤创建飞书应用、并配置导出权限等,然后获取凭证填入表单。

    1.创建飞书应用并获取凭证

    1. 登录飞书开放平台,在右上角单击开发者后台。进入后台后单击创建企业自建应用,填入应用名称应用描述应用图标,单击创建。

    2. 在应用管理页面,找到机器人能力,单击添加

    3. 在左侧导航栏单击权限管理,进入页签后单击批量导入/导出权限,将以下JSON格式权限描述代码复制进导入页签中,单击下一步,确认新增权限,单击申请开通

      {
        "scopes": {
          "tenant": [
            "aily:file:read",
            "aily:file:write",
            "application:application.app_message_stats.overview:readonly",
            "application:application:self_manage",
            "application:bot.menu:write",
            "cardkit:card:write",
            "contact:contact.base:readonly",
            "contact:user.employee_id:readonly",
            "corehr:file:download",
            "docs:document.content:read",
            "event:ip_list",
            "im:chat",
            "im:chat.access_event.bot_p2p_chat:read",
            "im:chat.members:bot_access",
            "im:message",
            "im:message.group_at_msg:readonly",
            "im:message.group_msg",
            "im:message.p2p_msg:readonly",
            "im:message:readonly",
            "im:message:send_as_bot",
            "im:resource",
            "sheets:spreadsheet",
            "wiki:wiki:readonly"
          ],
          "user": [
            "aily:file:read",
            "aily:file:write",
            "im:chat.access_event.bot_p2p_chat:read"
          ]
        }
      }
    4. 进入凭证与信息页面,分别复制App IDApp Secret,后续需要使用。

    2.为飞书应用配置访问知识库权限

    • 在飞书客户端创建一个群聊,并将应用添加至群聊中。

    • 知识库管理员前往知识库设置->成员设置->添加管理员

    • 搜索包含机器人的群聊,添加该群为管理员。

    点击连接检测,通过后填写自动同步频率,配置数据标签。

    重要
    • 飞书需要设置导出权限。

    • 飞书不支持mindnote文档的导出。

    钉钉

    通过以下步骤获取钉钉凭证信息,然后填入表单创建钉钉文档同步规则。

    1.创建钉钉应用

    1. 登录钉钉开放平台,选择您有开发者权限的组织,或者选择某个组织后,获取开发者权限。

    2. 在顶部菜单栏,选择应用开发

    3. 在页面右侧,单击创建应用,填写应用名称和描述,然后点击保存,系统自动进入应用详情页。

    2.为钉钉应用添加权限

    同步数据之前,点击应用详情页中开发配置选项下的权限管理,搜索并开通以下权限:

    • Contact.User.Read

    • Wiki.Workspace.Read

    • Wiki.Node.Read

    • Document.Workbook.Read

    • Notable.Base.Read_All

    • qyapi_get_member

    3.发布应用

    1. 在应用详情的左侧导航栏,单击版本管理与发布

    2. 在页面右侧,单击创建新版本,填写版本号(例如 1.0.0)及版本描述。

    3. 设置可见范围,例如全部员工

    4. 单击保存,然后确认发布。

    4.获取应用 Client ID 和 Client Secret

    1. 在左侧导航栏,单击凭证与基础信息

    2. 获取Client IDClient Secret

    5.获取钉钉用户 ID

    1. 访问钉钉管理后台,使用组织管理员账号登录。

    2. 在左侧导航栏单击通讯录->成员管理

    3. 在成员列表中找到员工UserID列,复制目标用户的 UserID。

    说明

    需要有组织的管理权限才能查看员工 UserID。

    6.开通钉钉 MCP

    创建钉钉同步规则前,需要在钉钉 MCP 广场开通以下 MCP 服务:

    • 钉钉文档 MCP:同步钉钉文档时需要开通。

    • 钉钉表格 MCP:同步钉钉表格时需要开通。

    获取 MCP Endpoint 的步骤:

    1. 访问钉钉 MCP 广场,分别找到钉钉文档和钉钉表格,单击进入详情页。

    2. 在详情页单击获取 MCP Server 配置,复制对应的 MCP Endpoint 链接。

    3. 将复制的链接分别填入表单的钉钉文档 MCP 链接和钉钉表格 MCP 链接字段。

    7.获取钉钉知识库ID、文件夹 ID或文档 ID

    表单中钉钉知识库 ID、钉钉文件夹 ID、钉钉文档 ID三者必须填写一项,用于指定同步的内容范围。可通过 URL 直接获取:

    • 钉钉知识库 ID:访问钉钉知识库首页,单击需要同步的知识库进入,浏览器地址栏 URL 末尾部分即为知识库 ID。

    • 钉钉文件夹 ID:在知识库中单击对应文件夹,URL 末尾部分即为文件夹 ID。

    • 钉钉文档 ID:在知识库中单击对应文档,URL 末尾部分即为文档 ID。

    说明

    三个 ID 决定同步范围:填写知识库 ID 同步整个知识库;填写文件夹 ID 同步该文件夹及其下属文档;填写文档 ID 仅同步单个文档。

    完成以上前置步骤后,填写钉钉文档信息

    参数

    是否必填

    说明

    钉钉用户 ID

    在钉钉管理后台的通讯录->成员管理中获取。

    钉钉应用 ID

    在钉钉开放平台的应用管理页面获取。

    钉钉应用密码

    在钉钉开放平台的应用管理页面获取。

    钉钉知识库 ID

    三选一

    钉钉知识库 ID、钉钉文件夹 ID 和钉钉文档 ID,必须填写一个。

    钉钉文件夹 ID

    三选一

    钉钉知识库 ID、钉钉文件夹 ID 和钉钉文档 ID,必须填写一个。

    钉钉文档 ID

    三选一

    钉钉知识库 ID、钉钉文件夹 ID 和钉钉文档 ID,必须填写一个。

    钉钉文档 MCP 链接

    条件必填

    需要同步钉钉文档时,必须填写该值。

    钉钉表格 MCP 链接

    条件必填

    需要同步钉钉表格时,必须填写该值。

    同步周期

    选择数据自动同步的频率。

    填写完成后,点击连接检测验证连通性,通过后配置数据标签。

    重要
    • 钉钉文档同步需获取钉钉开发资源消耗。查看钉钉开发资源消耗情况及扩容

    • 支持同步在钉钉知识库创建的钉钉文档、钉钉表格以及钉钉 AI 表格,不支持同步本地上传的文档和表格。

    钉钉 API 调用数量说明

    每次同步会消耗钉钉开放平台 API 配额,消耗分为同步前校验和同步执行两个阶段,建议提前评估配额是否充足。

    同步前校验(任务启动时检查连通性、权限和资源是否存在):

    • 账号鉴权:固定 1 次。

    • 文档批量校验:每 30 个文档 1 次(不足 30 个也按 1 次计),再额外 1 次。

    • AI 表格存在性校验:每个 AI 表格 1 次。

    • 知识库存在性校验:每个知识库 1 次。

    同步执行(实际把内容拉取到百炼):

    • 账号鉴权:固定 1 次。

    • 知识库内容拉取:每个知识库 1 次。

    • AI 表格内容拉取:每个 AI 表格消耗 (Sheet 数 + 单/双向关联字段数) 次。

    示例

    同步 1 个知识库(含 50 个文档)+ 2 个 AI 表格(每个 3 个 Sheet、2 个关联字段),合计调用次数:

    • 同步前校验:1 + (50/30 + 1) + 2 + 1 = 7 次。

    • 同步执行:1 + 1 + 2 × (3 + 2) = 12 次。

    • 总计约 19 次。

    说明

    实际消耗可能因接口重试、错误回退等略有浮动,以上为典型估算。

  3. 配置数据标签,然后点击确认即创建成功。

创建完成后显示在同步规则列表页,可在操作列对规则开启启用禁用

文件连接器工具

文件连接器创建成功后,系统自动生成以下2个工具:

工具名称

功能说明

参数

searchFile

根据文件标题的关键词,查询文件列表,返回文件的下载链接。

  • keyWord(string,必填):文件标题的关键词。

  • maxCount(int,可选):返回文件数量,默认值为5,最大值为10。

getFile

根据文件ID,获取文件,返回文件的下载链接。

  • fileId(string,必填):文件ID。

管理连接器

  • 编辑:点击卡片进入连接器详情页,单击右上角的编辑按钮,可以修改连接器的名称描述。连接器类型和存储方式创建后不可更改。

  • 复制:在连接器列表页或详情页,单击复制按钮,可以基于当前连接器的配置快速创建一个新的连接器。

  • 删除:在连接器列表页,单击目标连接器卡片上的更多图标(···),选择删除;或在连接器详情页单击删除按钮。

    重要

    删除前需确认,删除后无法恢复

在智能体中使用数据连接器

创建连接器后,在智能体应用中配置数据连接器工具,使智能体在对话中自动调用这些工具来查询和引用外部数据。

  1. 在智能体配置页面左侧,单击技能,找到数据连接器区域。

  2. 单击数据连接器区域的+按钮,在弹出的选择数据连接器对话框中:

    1. 浏览或搜索目标连接器,支持按连接器类型筛选。

    2. 单击目标连接器的添加按钮。

  • 添加后,连接器的工具会自动显示在配置列表中。您可以单击工具右侧的设置按钮调整参数。

  • 发布智能体,即可在对话中自动调用这些工具。

在工作流中使用数据连接器

创建连接器后,您可以在工作流应用中添加数据连接器节点,使工作流在执行过程中调用连接器工具来查询外部数据,并将结果传递给下游节点处理。

  1. 在工作流画布配置页面,展开左侧节点库,在工具分类下找到数据连接器,将其拖拽到画布中。

  2. 在弹出的选择数据连接器对话框中:

    • 浏览或搜索目标连接器,支持按连接器类型(文件、表格、MySQL、PostgreSQL、语雀、OSS)筛选。

    • 展开连接器,选择要使用的工具(如 searchFile、getFile),然后单击确定

  3. 配置节点输入:在节点配置面板的输入区域,为工具参数设置引用方式,将上游节点的输出或内置变量映射到工具所需的参数(如 fileId)。

  4. 连接节点:将数据连接器节点与上下游节点通过连线连接,确保数据流向正确。

  5. 节点输出为 result 对象,包含 content(Array<Object>,返回内容)和 isError(Boolean,是否发生错误)两个字段,供下游节点引用。

说明

工作流中每个数据连接器节点只能关联一个工具。如需使用同一连接器的多个工具,请添加多个数据连接器节点。

相关文档

创建知识库导入数据源内容,用于后续检索:创建和使用知识库

应用配置和使用指南:应用类型介绍

常见问题

权限与安全

  • 数据导入时,遇到报错“缺少该模块的权限”,应如何处理?

    RAM用户需主账号授予管理员权限,参见页面权限

导入OSS文件

  • OSS导入文件配置说明

    首次从OSS导入文件时,需要授权阿里云百炼访问OSS资源。主账号与子账号的授权流程不同。

    主账号授权

    1. 在导入数据页面,点击前往授权

    2. 在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色,允许阿里云百炼访问OSS资源。

      通常秒级生效(高峰期可能延迟)。
    3. 为目标 OSS Bucket 添加bailian-datahub-access标签(值为read)。

      该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
      1. 访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标 Bucket。

      2. 悬停鼠标在其image图标上,点击编辑(若未设置过标签)或前往编辑

      3. Bucket标签页面,点击创建标签(若未设置过标签)或设置

      4. 点击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后点击保存

    4. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

      注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。

    子账号授权

    1. 在导入数据页面,点击前往授权

    2. 在弹出的对话框中,点击确认授权。若界面提示授权失败当前用户没有创建服务关联角色的权限,需先授予子账号创建服务关联角色的权限。

      1. 需主账号登录RAM控制台,在左侧导航栏,选择权限管理 > 权限策略,然后点击页面上的创建权限策略

      2. 点击脚本编辑,将下方提供的完整JSON策略复制并粘贴至编辑框,点击确定

        {
            "Action": [
                "ram:CreateServiceLinkedRole"
            ],
            "Resource": "*",
            "Effect": "Allow",
            "Condition": {
                "StringEquals": {
                    "ram:ServiceName": "datahub.sfm.aliyuncs.com"
                }
            }
        }
      3. 输入权限策略名称(如服务关联角色)后,点击确定

      4. 在左侧导航栏,选择身份管理 > 用户。在页面列表中找到待授权的子账号,然后点击子账号操作列的添加权限

      5. 在权限策略中选择刚才创建的权限策略(自定义策略),点击确认新增授权。至此,子账号拥有了创建服务关联角色的权限。

    3. 授权子账号通过阿里云百炼访问OSS。

      1. 返回导入数据页面,点击前往授权

      2. 在弹出的对话框中,点击确认授权,系统将自动创建OSS服务关联角色(必要条件)。

        通常秒级生效(高峰期可能延迟)。
    4. 为目标 OSS Bucket 添加bailian-datahub-access标签,值为read

      该标签用于标记阿里云百炼可访问的 Bucket,未标记的 Bucket 阿里云百炼无法访问。
      1. 访问OSS管理控制台,点击左侧导航栏中的Bucket 列表,找到目标Bucket。

      2. 悬停鼠标在其image图标上,点击编辑(若未设置过标签)或前往编辑

      3. Bucket标签页面,点击创建标签(若未设置过标签)或设置

      4. 点击标签,添加标签名为bailian-datahub-access,标签值为read的标签,然后点击保存

    5. 返回导入数据页面,重新选择目标 Bucket 再尝试导入。

      注意:阿里云百炼不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
  • 导入OSS文件遇到“10041495”报错,应如何处理?

    通常是主账号未开通OSS服务,处理步骤:

    1. 需主账号前往OSS管理控制台,按界面指引开通 OSS。

    2. 返回阿里云百炼页面,再尝试授权。

导入MySQL数据

  • 私网数据源支持哪些地域的RDSECS实例?

    • 华东1(杭州)

    • 华东2(上海)

    • 华南1(深圳)

    • 华南2(河源)

    • 华南3(广州)

    • 华北1(青岛)

    • 华北2(北京)

    • 华北3(张家口)

    • 华北5(呼和浩特)

    • 华北6(乌兰察布)

    • 西南1(成都)

  • 我想使用RAM用户开通EventBridge服务关联角色,应如何为该RAM用户配置权限?

    1. 主账号为RAM用户配置如下三个系统策略:AliyunBailianFullAccessAliyunEventBridgeFullAccessAliyunRDSReadOnlyAccess。具体操作请参考管理RAM用户的权限

    2. 主账号为RAM用户配置创建服务关联角色系统策略。

      1. 使用主账号登录RAM控制台,在左侧导航栏,选择权限管理 > 权限策略,然后点击页面上的创建权限策略

      2. 脚本编辑EffectActionResourceCondition中分别输入以下脚本中的对应内容后,点击确定

        {
            "Version": "1",
            "Statement": [
                {
                    "Action": "ram:CreateServiceLinkedRole",
                    "Resource": "*",
                    "Effect": "Allow"
                }
            ]
        }
      3. 输入权限策略名称CreateServiceLinkedRole后,点击确定

      4. 在左侧导航栏,选择身份管理 > 用户。从页面列表中找到待授权的RAM 用户,然后点击RAM 用户操作列的添加权限

      5. 权限策略列表中,选择刚创建的权限策略(CreateServiceLinkedRole),然后点击确认新增授权。至此,RAM 用户拥有了创建服务关联角色的权限。

    3. 完成以上步骤12后,返回创建数据源界面,使用RAM用户再尝试开通EventBridge服务关联角色

  • 系统提示“数据库配置校验不通过,您选择的表数据量较大”,应如何处理?

    阿里云RDS MySQL

    上方仅为示意图,提示中的建议项和建议值会根据您表中数据量不同而不同。若无对应建议项,则无需调整。

    以下步骤请使用阿里云账号(主账号)操作。

    • 如何配置本地日志保留时长:

      1. 前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含该数据表的RDS实例。接着点击左侧导航栏中的备份恢复,再点击备份策略选项卡,即可看到保留时长设置项。

      2. 修改保留时长为提示中提供的建议值。

    • 如何配置wait_timeout:

      1. 前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着点击左侧导航栏中的参数设置,再点击可修改参数选项卡,即可看到wait_timeout设置项。

      2. 改为提示中提供的建议值。

    自建MySQL

    仅为示意图,提示中的建议项和建议值会根据您表中数据量不同而不同。若无对应建议项,则无需调整。
    • 如何设置本地日志保留时长:

      • 方式一(临时生效):通过执行SET GLOBAL命令修改expire_logs_days(MySQL 5.7及以下版本)或binlog_expire_logs_seconds(MySQL 8.0及以上版本),该修改将在下次MySQL重启后失效。

        MySQL 5.7及以下版本

        1. 执行命令:

          请将下方参数值 15 替换为提示中提供的建议值。
          SET GLOBAL expire_logs_days = 15; 
        2. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'expire_logs_days';

        MySQL 8.0及以上版本

        1. 执行命令:

          请将下方参数值 1296000 替换为提示中提供的建议值。
          SET GLOBAL binlog_expire_logs_seconds = 1296000; 
        2. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'binlog_expire_logs_seconds';
      • 方式二(永久生效):通过MySQL配置文件设置expire_logs_days(MySQL 5.7及以下版本)或binlog_expire_logs_seconds(MySQL 8.0及以上版本),但该方式需重启MySQL服务。

        MySQL 5.7及以下版本

        1. Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。若文件中已包含expire_logs_days,可直接修改;若不存在,请手动添加。

          请将下方参数值 15 替换为提示中提供的建议值。
          [mysqld]
          expire_logs_days = 15
        2. 保存配置文件后,请您手动重启MySQL服务。

        3. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'expire_logs_days';

        MySQL 8.0及以上版本

        1. Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。若文件中已包含binlog_expire_logs_seconds,可直接修改;若不存在,请手动添加。

          请将下方参数值 15 替换为提示中提供的建议值。
          [mysqld]
          binlog_expire_logs_seconds = 1296000
        2. 保存配置文件后,请您手动重启MySQL服务。

        3. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'binlog_expire_logs_seconds';
    • 如何设置wait_timeout:

      • 方式一(临时生效):通过执行SET GLOBAL命令修改wait_timeout(单位是秒),该修改将在下次MySQL重启后失效。

        1. 执行命令:

          请将下方参数值 1159200 替换为提示中提供的建议值。
          该命令将影响所有新建立的连接。已存在的连接不受此设置影响。
          SET GLOBAL wait_timeout = 1159200; 
        2. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'wait_timeout'; 
      • 方式二(永久生效):通过MySQL配置文件设置wait_timeout(单位是秒),但该方式需重启MySQL服务。

        1. Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。若文件中已包含wait_timeout,可直接修改;若不存在,请手动添加。

          请将下方参数值 1159200 替换为提示中提供的wait_timeout建议值。
          [mysqld]
          wait_timeout = 1159200
        2. 保存配置文件后,请您手动重启MySQL服务。

        3. 验证修改是否已生效,执行命令:

          SHOW VARIABLES LIKE 'wait_timeout';