数据连接

更新时间:
复制为 MD 格式

数据连接是阿里云百炼平台管理外部数据源的统一入口。通过创建数据连接器,智能体可以安全地访问企业数据库、文档系统和对象存储中的数据,在对话中实时查询和引用这些数据。

连接器类型

数据连接器按数据的存储和访问方式,分为平台托管流处理两大类:

联通格式

连接器类型

数据存储方式

适用场景

平台托管

文件

阿里云百炼平台或自有OSS

上传和管理非结构化文档(PDF、Word、Markdown等)

表格

阿里云百炼平台或自有OSS

导入和查询结构化表格数据(CSV、Excel等)

流处理

MySQL

数据保留在原数据库,实时访问

连接MySQL数据库,执行SQL查询

PostgreSQL

数据保留在原数据库,实时访问

连接PostgreSQL数据库,执行SQL查询

语雀

数据保留在语雀,实时访问

访问语雀文档和知识库

OSS

数据保留在OSS,实时访问

访问对象存储中的文件

前置条件

在创建数据连接器前,请确保满足以下条件:

  • 账号权限:主账号或具有数据连接管理权限的RAM子账号。子账号需要主账号授权后才能使用数据连接功能。

  • 数据源准备:

    • 文件/表格连接器:已准备好要上传的文档或表格文件,或已创建OSS Bucket。

    • MySQL连接器:已有MySQL数据库实例(阿里云RDS或自建),并确保网络可达(公网或私网)。

    • PostgreSQL连接器:已有PostgreSQL数据库实例,且已将wal_level参数设置为logical

    • 语雀连接器:已有语雀知识库,并获取了个人访问 Token。

    • OSS连接器:已创建OSS Bucket,并开通了向量检索服务(向量检索增强版)。

创建连接器

  1. 访问数据连接页面,单击右上角的创建连接器

  2. 选择连接器类型,填写基本信息和存储位置。

    文件连接器

    文件连接器用于管理非结构化文档(PDF、Word等)。

    1. 在创建连接器页面,连接器类型选择文件。

    2. 填写基本信息:

      1. 连接器名称:使用易于识别的名称。

      2. 描述:填写连接器的用途说明。描述会用于指导智能体调用的准确度,建议写明数据内容和用途。

    3. 选择存储位置

      • 使用平台存储:数据存储在阿里云百炼平台提供的存储空间中,提供最大100,000个文件,1 TB 存储额度,限时免费

      • 使用自有OSS存储:数据存储在您自己的OSS Bucket中,需要先完成OSS授权。首次选择时,单击立即授权,在弹出的对话框中单击确认授权。适用于大规模数据存储。

    表格连接器

    表格连接器用于管理结构化数据(CSV、Excel等)。

    1. 在创建连接器页面,连接器类型选择表格

    2. 填写基本信息:

      1. 连接器名称:使用易于识别的名称。

      2. 描述:填写连接器的用途说明。描述会用于指导智能体调用的准确度,建议写明数据内容和用途。

    3. 选择存储位置

      • 使用平台存储:数据存储在阿里云百炼平台提供的存储空间中,提供1 TB免费额度,额度用完后自动转为按量付费。适用于小规模数据存储。

      • 使用自有OSS存储:数据存储在您自己的OSS Bucket中,需要先完成OSS授权。首次选择时,单击立即授权,在弹出的对话框中单击确认授权。适用于大规模数据存储。

    MySQL连接器

    MySQL连接器属于流处理类型,用于连接MySQL数据库,使智能体可以执行SQL查询获取实时数据。

    1. 在创建连接器页面,选择MySQL类型。

    2. 填写连接器名称描述

    3. 配置数据来源信息:

      • 创建自定义数据源:手动配置数据库连接信息,通过公网或私网连接阿里云RDS或自建MySQL数据库。

        • 阿里云RDS MySQL:通过SLR授权,关联阿里云RDS服务下的MySQL数据库。选择后,数据库地址端口会根据实例ID自动获取,无需手动输入。

        • 自建MySQL:手动配置远端MySQL数据库的连接信息。需要手动输入数据库地址端口

      • DMS导入数据源:快速导入DMS(数据管理服务)中已创建的数据源。首次使用需完成SLR授权,包括EventBridge服务关联角色、RDS服务管理角色和DMS服务管理角色的授权。

    4. 选择网络类型:

      • 公网(默认):通过公网连接数据库。选择公网时,请务必将指定IP段加入数据库实例的白名单中。

      • 私网:通过内网连接数据库,需要额外选择所属地域。适用于生产环境,连接更稳定安全。

      • 填写数据库连接信息:

        配置项

        说明

        数据库实例

        仅阿里云RDS MySQL时显示。输入RDS实例ID,例如rm-******adq7

        数据库地址

        阿里云RDS MySQL时自动获取(禁用输入);自建MySQL时需手动输入。

        数据库端口

        阿里云RDS MySQL时自动填充为3306(禁用输入);自建MySQL时需手动输入。

        数据库用户名

        必填。输入数据库用户名,用于鉴权连接。

        数据库密码

        必填。输入数据库密码。请确保该用户具备数据库的读取权限。

      • (可选)单击开始检测,验证数据库连通性。

        系统通过EventBridge服务检测连通性,检测不收取费用。检测通过后,可以从选择DB下拉列表中选择要连接的数据库。

    PostgreSQL连接器

    PostgreSQL连接器支持连接阿里云RDS PostgreSQL实例或自建PostgreSQL数据库。

    前置条件

    • 数据库账号必须具有高权限(Superuser或具有REPLICATION权限)。

    • 已将实例系统参数wal_level设置为logical(默认为replica)。

    • (仅自建实例)已配置listen_addresses参数,允许100.64.0.0/16网段访问。配置方法:

      1. 编辑配置文件:sudo vim /etc/postgresql/[版本]/main/pg_hba.conf

      2. 在文件顶部添加规则:host [数据库名] [用户名] 100.64.0.0/16 md5

      3. 重载配置:sudo systemctl reload postgresql

    1. 在创建连接器页面,选择PostgreSQL类型。

    2. 填写基本信息:连接器名称、描述(建议说明数据内容和用途)。

    3. 配置数据库连接:

      • 主机地址:数据库实例的连接地址(公网或私网)。

      • 端口:默认5432。

      • 数据库名称(dbName):必填字段,指定要连接的数据库。

      • 用户名:具有高权限的数据库账号。

      • 密码:数据库密码。

    4. 单击测试连通性,确保配置正确。PostgreSQL连接器使用DTS(数据传输服务)进行连通性检测。

    MySQLPostgreSQL差异对比:

    差异项

    MySQL

    PostgreSQL

    默认端口

    3306

    5432

    额外必填字段

    需额外填写dbName(数据库名称)

    连通性检测服务

    EventBridge

    DTS(数据传输服务)

    特殊配置要求

    需将实例系统参数wal_level修改为logical

    语雀连接器

    语雀连接器用于访问语雀文档和知识库,使智能体可以检索和引用企业在语雀中的知识内容。

    1. 在创建连接器页面,选择语雀

    2. 填写连接器名称描述

    3. 访问语雀开放 API获取Tenant access token并填入在连接信息区域。

    4. 单击连接检测,验证Token有效性。输入Token后该按钮自动启用。

    OSS连接器

    OSS连接器用于访问对象存储中的文件,使智能体可以读取和处理OSS中存储的各类文件。

    1. 在创建连接器页面,选择OSS类型。

    2. 填写连接器名称描述

    3. 存储Bucket选择下拉列表中,选择要连接的OSS Bucket。

    说明
    • 如果下拉列表中没有显示Bucket,请确认已创建OSS Bucket,且当前账号拥有该Bucket的访问权限。

    • 使用OSS连接器需要先开通向量检索服务。如果未开通,调用工具时会返回相应的错误提示信息。

    首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加bailian-datahub-access标签以供阿里云百炼访问。操作指南请参见OSS导入文件配置说明
    不支持归档、冷归档或深度冷归档存储类型的 Bucket。
    不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
    支持内容加密的 Bucket。支持私有的 Bucket。
    如需使用开启Referer防盗链Bucket,须参考防盗链将域名*.console.aliyun.com添加到白名单Referer中。
  3. 单击确认,完成创建。

导入数据

导入文件

点击文件连接器卡片详情,进入文件管理页面。

  1. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

    阿里云百炼通过类目管理导入的文件。
  2. 点击导入数据,进入导入数据界面导入方式选择本地上传

    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。
  3. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

    解析方式说明

    请根据实际需求配置解析策略,如不确定建议保持默认设置。有关文档智能解析大模型文档解析电子文档解析的详细说明,请参阅文档理解

    可选的解析方式取决于选择的文件类型(文档、图像、音频、视频)。
    • 电子文档解析:不支持解析文件中的插图与图表。

    • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

    • 大模型文档解析:使用模型列表模型的智能体应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

    • Qwen VL解析:仅支持解析图片格式。可自主选择千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

    • 音视频解析:对文件进行语音识别、视频帧提取(仅限视频)和剧情解析(仅限视频),最终将所有声画信息按时间轴结构化对齐。

      • 语音识别:字幕内容解析器通过录音文件识别将人类语音转为文本。暂不支持识别音乐或自然环境声(如喇叭声、钟声、雷声等)。

      • 视频帧提取:从原始视频中抽取有代表性的视觉画面,并生成相应的文本描述。

      • 剧情解析(需手动开启):分析视频内容,定位具体事件并标注时间戳,同时生成相应的文本描述。

    如何让阿里云百炼应用在回答中正常展示文件中的插图

  4. 为文件配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台调试知识库时设置标签。
  5. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

    文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
  6. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

    文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
    仅支持查看最近90天内导入的文件。超过此时间范围后,导入的文件将无法查看,但不会被删除。
    导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

导入表格

点击表格连接器卡片详情,进入数据管理页面。

在左侧数据表管理下,选择一个现有数据表,或点击image图标新建数据表。

阿里云百炼通过数据表管理导入的数据。

导入到新数据表

  1. 输入数据表名称。并配置数据表,选择可直接上传Excel自定义表头

    • 直接上传Excel:阿里云百炼将自动识别上传文件中的表头,并据此来创建数据表结构,并将其余内容作为数据记录导入该表。

    • 自定义表头:列名为必填参数,描述为选填参数,类型为必填参数。

      重要
      • 数据表的结构(列名、描述以及类型)一旦确定,无法修改。

      • 上传文件的表结构必须与待导入数据文件的结构(列数、列名)完全一致,否则导入会失败。例如,待导入的数据表有2列,这里的表结构必须配置2个字段,且列名需一一对应。可通过点击新增字段操作列的删除,来增加或删减字段。

      • 为帮助模型理解各字段含义(如 age 表示年龄),请在“描述”中提供清晰的自然语言说明。

      • 若字段类型设为 image_url,请确保链接是公开可访问的图片URL。知识库会用此链接抓取图片并为其生成向量索引,用于以图搜图等场景。

        image_url格式示例:https://example.com/downloads/pic.jpg
        创建知识库时,image_url类型字段用于生成图片索引。阿里云百炼会访问目标图片并提取其特征,然后通过图片Embedding转换为向量并保存。知识库检索时,会用该向量与用户上传图片的向量进行相似度比对。
  2. 点击image图标选择并上传文件(XLSXXLS格式)。

    文件必须包含表头,否则会导入失败。
    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。
  3. 点击确定,开始导入。完成后,左侧的数据表导航树中将出现新数据表。

导入到现有数据表

  1. 在左侧的数据表列表中选择相应的数据表,然后点击导入数据

  2. 导入类型选择覆盖上传增量上传

    点击界面上的下载模板,可获取一个仅包含表头的空白文件。您可直接在该文件中插入新数据,然后将其用于覆盖上传或增量上传。
  3. 点击image图标选择并上传文件(XLSXXLS格式)。

    文件必须包含表头,且与当前数据表的表头结构一致,否则会导入失败。
    目前平台不支持直接导入JSON、CSV、YAML格式文件。请自行用相应工具将其转换为XLSXXLS格式再导入。

导入OSS文件

  1. 在左侧类目下,选择一个现有类目,或点击image图标新建类目。

    阿里云百炼通过类目管理导入的文件。
  2. 点击导入数据,进入导入数据界面导入方式选择OSS

    首次从 OSS 向阿里云百炼导入数据,需按界面提示完成授权,并为目标 Bucket 添加bailian-datahub-access标签以供阿里云百炼访问。操作指南请参见OSS导入文件配置说明
    不支持归档、冷归档或深度冷归档存储类型的 Bucket。
    不支持访问 Bucket 根目录下的文件,请选择已有的子目录或新建一个子目录供阿里云百炼访问。
    支持内容加密的 Bucket。支持私有的 Bucket。
    如需使用开启Referer防盗链Bucket,须参考防盗链将域名*.console.aliyun.com添加到白名单Referer中。
  3. 解析方式可选默认设置自定义设置自定义设置可针对不同格式配置解析规则,以提升解析效果)。

    解析方式说明

    请根据实际需求配置解析策略,如不确定建议保持默认设置。有关文档智能解析大模型文档解析电子文档解析的详细说明,请参阅文档理解

    • 电子文档解析:不支持解析文件中的插图与图表。

    • 文档智能解析:对于文件中的插图,解析器会识别并提取图中的文本,并生成文本摘要。这些摘要将与文件中其它非图片内容一起被切分并转换为向量,参与知识库的检索。

    • 大模型文档解析:使用模型列表模型的智能体应用支持用户对文件中插图和图表的内容进行提问。如需识别和理解文件中的插图与图表,请选择大模型文档解析

    • Qwen VL解析:仅支持解析图片格式。可自主选择千问VL模型,并通过传入Prompt指定模型需要识别的版面、元素及内容,其余功能与大模型文档解析一致。

    • 音视频解析:对文件进行语音识别、视频帧提取(仅限视频)和剧情解析(仅限视频),最终将所有声画信息按时间轴结构化对齐。

      • 语音识别:字幕内容解析器通过录音文件识别将人类语音转为文本。暂不支持识别音乐或自然环境声(如喇叭声、钟声、雷声等)。

      • 视频帧提取:从原始视频中抽取有代表性的视觉画面,并生成相应的文本描述。

      • 剧情解析(需手动开启):分析视频内容,定位具体事件并标注时间戳,同时生成相应的文本描述。

    如何让阿里云百炼应用在回答中正常展示文件中的插图

  4. 为文件配置标签(可选)。

    通过API调用应用时,可以在请求参数tags中指定标签。应用在检索知识库时,会先根据标签筛选相关文件,从而提高检索效率。对于智能体应用,可在控制台编辑应用时直接设置标签(启用知识库 > +知识库 > 知识库高级配置 > 标签过滤)。
  5. 点击确认,系统将开始解析和导入,可在页面查看任务进度。

    文件将被转换成阿里云百炼可处理的格式。在请求高峰时段,该过程可能需要数小时,请耐心等待。
  6. 导入完成后,点击相应文件右侧的详情即可查看导入的文件。

    文件导入阿里云百炼后,将作为独立副本(与原始数据没有关联)存储在平台提供的免费空间中,当前无容量限制。
    导入的文件仅供当前业务空间的用户使用。阿里云百炼不会将其用于任何商业用途或对外公开。

导入RDS MySQL数据

重要
  • 新建数据源前需开通阿里云事件总线EventBridge服务。

  • 阿里云百炼与RDS实例必须归属同一阿里云账号。否则请按照导入自建MySQL数据中步骤操作。

  • 导入大数据表(1,000,000行以上)时,耗时可能超过数据库本地日志的保留时长,造成数据重复导入。如何解决

RDS实例限制:目前只支持MySQL引擎(版本无限制),暂不支持PostgreSQL等其它引擎;实例地域不限;只支持基础系列高可用系列;创建RDS实例时,网络类型必须是专有网络,加入白名单需选(将VPC网段加入到RDS实例白名单中)。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100KB以内(超出将被截断)。若最大行数限制无法满足实际业务需求,可提交工单申请调整。

网络类型选择公网私网

私网数据源仅支持部分地域RDS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。

新建公网数据源

  1. 为确保知识库能正常接收RDS数据,请为RDS实例设置EventBridge白名单。

    若未正确设置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 访问RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航栏中的数据库连接,点击外网地址旁的设置白名单image

    2. 点击添加白名单分组,并将以下 EventBridge 公网 IP 地址全部添加至白名单分组中。

      • 39.105.55.188,39.105.110.43,47.95.35.213,47.95.33.100,39.106.255.198,47.93.177.159,47.95.32.154,39.107.99.72

    3. 点击确定,白名单生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    数据库实例

    填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库地址

    填写RDS实例的外网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航栏中的数据库连接,即可查看该实例对应的外网地址。

    若该 RDS 实例未开通外网地址,请先按照界面指引完成 RDS 外网地址开通。
    高可用系列RDS请勿使用数据库代理连接区域的代理连接地址内网地址

    image

    数据库端口

    填写RDS实例的外网端口。该信息同样可以在RDS实例的数据库连接界面获取。

    数据库用户名

    数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号

    使用普通账号创建数据源时会提示There is no permission:RELOAD
  3. 点击创建数据源,提交新建任务系统将自动配置 RDS 数据源,期间业务空间将被锁定,无法同时创建其他数据源。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限
    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

新建私网数据源

  1. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    所属地域

    选择RDS实例所在地域。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库实例

    填写RDS实例ID。请前往RDS控制台,点击左侧导航栏中的实例列表获取。

    数据库地址

    填写RDS实例的内网地址。您可以在RDS实例的数据库连接界面获取该信息:前往RDS控制台,点击左侧导航栏中的实例列表,然后点击包含数据表的RDS实例。接着,点击左侧导航中的数据库连接,即可查看该实例对应的内网地址

    高可用系列RDS请勿使用数据库代理连接区域的代理连接地址内网地址

    image

    数据库端口

    填写RDS实例的内网端口。该信息同样可以在RDS实例的数据库连接界面获取。

    数据库用户名

    数据库账号类型需为高权限账号,关于账号说明和获取方式请参见创建账号

    使用普通账号创建数据源时会提示There is no permission:RELOAD
  2. 连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

    首次检测时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限

    VPC ID

    应填写RDS实例的VPC ID。该信息同样可以在RDS实例的数据库连接界面获取。

    image

    VSwitch ID

    将鼠标悬浮于RDS实例的VPC ID上即可显示VSwitch ID。

    RDS MySQL高可用系列实例可能拥有多个 VSwitch ID,请完整填写该实例关联的所有 VSwitch ID。

    image

    安全组ID

    可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台安全组界面创建安全组。该安全组需满足以下要求:

    • 安全组的地域需与上方所属地域保持一致;

    • 安全组的网络需选择RDS所在的VPC;

      image

    • 安全组类型支持普通安全组和企业级安全组。

    • 安全组的网络入方向未设置任何访问限制;

      • 正确示例:

        image

      • 错误示例:image

  3. 连通性检测通过后,点击确认,提交新建任务系统将为您自动配置RDS数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

导入自建MySQL数据

重要
  • 新建数据源前需开通阿里云事件总线EventBridge服务。

  • 导入大数据表(1,000,000行以上)时,耗时可能超过数据库本地日志的保留时长,造成数据重复导入。如何解决

自建MySQL限制:必须部署在阿里云ECS实例(地域不限)上;目前只支持MySQL 5.6、5.78.0;不支持MySQL代理Proxy。
数据库和表限制:知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100KB以内(超出将被截断)。若最大行数限制无法满足实际业务需求,可提交工单申请调整。

网络类型选择公网私网

私网数据源仅支持部分地域ECS实例;其他地域请选择公网数据源。私网数据源在安全性和性能方面更具优势。

新建公网数据源

  1. 为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。

    若未正确配置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 访问ECS控制台,点击左侧导航栏中的安全组,找到与您自建MySQL关联的安全组,然后点击操作栏中的管理规则。

      image

    2. 在安全组详情页,点击增加规则,将以下EventBridge公网IP地址全部添加至该安全组中,并且需要放行所有流量全部端口

      不可使用由第三方产品或服务间接创建的安全组。
      • 39.105.55.188,39.105.110.43,47.95.35.213,47.95.33.100,39.106.255.198,47.93.177.159,47.95.32.154,39.107.99.72

      image

    3. 点击确定,安全组生效。

    4. 在您的MySQL中,创建一个允许全部来源流量的数据库账号(也可以使用已有账号)然后执行以下GRANT授权命令。

      请根据您的实际情况,将下方命令中的user1替换为您的实际数据库账号。
      -- 创建用户(合并为单条语句),请将user1替换为您的实际数据库账号
      CREATE USER 'user1'@'%' IDENTIFIED BY 'user1的密码';
      
      -- 授予基础权限(合并为单条语句),请将user1替换为您的实际数据库账号
      GRANT ALL PRIVILEGES ON *.* TO 'user1'@'%' WITH GRANT OPTION;
      
      -- 刷新权限(仅需一次)
      FLUSH PRIVILEGES;
    5. 通过修改MySQL配置文件开启BinlogGTID。以Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。

      [mysqld]
      log-bin=mysql-bin
      server-id=1
      binlog_format=ROW
      gtid_mode=ON
      enforce_gtid_consistency=ON
    6. 重启MySQL,配置文件生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    数据库地址

    填写您自建MySQL的公网地址。

    数据库端口

    填写您自建MySQL的端口。

    数据库用户名

    填写您在前面加白步骤中执行过GRANT授权的数据库账号。

  3. 点击创建数据源,提交新建任务系统将为您自动配置自建MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限
    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

新建私网数据源

  1. 为确保知识库能正常接收数据,请为您的自建MySQL配置EventBridge白名单。

    若未正确配置白名单,创建数据源时会提示Communications link failure

    如何设置EventBridge白名单

    1. 在您的MySQL中,创建一个允许全部来源流量的数据库账号(也可以使用已有账号)然后执行以下GRANT授权命令。

      请根据您的实际情况,将下方命令中的user1替换为您的实际数据库账号。
      -- 创建用户(合并为单条语句),请将user1替换为您的实际数据库账号
      CREATE USER 'user1'@'%' IDENTIFIED BY 'user1的密码';
      
      -- 授予基础权限(合并为单条语句),请将user1替换为您的实际数据库账号
      GRANT ALL PRIVILEGES ON *.* TO 'user1'@'%' WITH GRANT OPTION;
      
      -- 刷新权限(仅需一次)
      FLUSH PRIVILEGES;
    2. 通过修改MySQL配置文件开启BinlogGTID。以Linux系统为例,MySQL配置文件一般位于:/etc/my.cnf 或 /etc/mysql/my.cnf。

      [mysqld]
      log-bin=mysql-bin
      server-id=1
      binlog_format=ROW
      gtid_mode=ON
      enforce_gtid_consistency=ON
    3. 重启MySQL,配置文件生效。

  2. 填写数据源相关配置:

    配置项

    说明

    数据源名称

    数据源名称在同一个业务空间中应是唯一的。即使数据源创建失败,该名称也无法再次使用。

    所属地域

    请选择您自建MySQL所部署ECS实例所在地域。该信息可以前往ECS控制台获取。

    数据库地址

    填写您自建MySQL私网地址。您可以在ECS实例界面获取该信息:前往ECS控制台,点击左侧导航栏中的实例,即可查看对应实例的私网地址

    image

    数据库端口

    填写您自建MySQL的端口。

    数据库用户名

    填写您在前面加白步骤中执行过GRANT授权的数据库账号。

  3. 连通性检测:点击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

    首次提交任务时,请根据界面指引开通EventBridge服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限

    VPC ID

    填写您自建MySQL所部署ECS实例所在VPC实例ID(vpc-xxxxxx)。该信息同样可以前往ECS控制台获取。

    image

    VSwitch ID

    实例VPC ID下方即是VSwitch ID(vsw-xxxxxx)。

    image

    安全组ID

    可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台安全组界面创建安全组。该安全组需满足以下要求:

    • 安全组的地域需与上方所属地域保持一致;

    • 安全组的网络需选择ECS所在的VPC;

      image

    • 安全组类型支持普通安全组和企业级安全组。

    • 入方向未设置任何访问限制;

      • 正确示例:

        image

      • 错误示例:image

  4. 连通性检测通过后,点击创建数据源,提交新建任务系统将为您自动配置MySQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

    在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

    状态

    说明

    创建成功

    表示数据源创建成功。请选择该数据源并执行下一步

    创建失败

    表示数据源创建失败。请检查各项参数是否正确,修改后点击重试重新创建数据源。您可点击删除,删除创建失败的数据源。

导入自建PostgreSQL数据

重要

新建数据源前需开通数据传输服务DTS

自建PostgreSQL限制:
必须部署在阿里云ECS实例(地域不限)上。
数据库和表限制:
知识库只能关联单个数据库中的一张表,不支持多表关联;关联表中的数据量最大为10,000,000行,且每一行记录的大小必须控制在100 KB以内(超出将被截断)。若最大行数限制无法满足实际业务需求,可提交工单申请调整。

网络类型选择私网

仅支持部分地域的ECS实例。私网数据源在安全性和性能方面更具优势。

新建私网数据源

1. 填写数据源相关配置:

配置项

说明

所属地域

请选择您自建PostgreSQL所部署ECS实例所在地域。该信息可以前往ECS控制台获取。

数据库地址

填写您自建PostgreSQL的内网IP地址。您可以在ECS的实例界面获取该信息:前往ECS控制台,单击左侧导航栏中的实例,即可查看对应实例的内网IP地址。

数据库端口

填写您自建PostgreSQL的端口。默认为5432。

数据库用户名

填写您在前面配置步骤中授权的数据库账号。

数据库密码

填写数据库密码。

数据库名称

必填字段,指定要连接的数据库名称(dbName)。

ecsId

用于自建的pgsql实例的ecs实例的Id。

2. 连通性检测:单击开始检测,对阿里云百炼与数据源之间的网络连通性进行检查。

首次提交任务时,请根据界面指引开通DTS服务关联角色,请使用主账号操作。如需使用RAM用户,需主账号为该RAM用户配置必要权限。

配置项

说明

VPC ID

填写您自建PostgreSQL所部署ECS实例所在VPCID(vpc-xxxxxx)。该信息同样可以前往ECS控制台获取。

VSwitch ID

实例VPC ID下方即是VSwitch ID(vsw-xxxxxx)。

安全组

可直接使用托管安全组;如需使用指定安全组,该安全组应为直接创建,非由第三方产品或服务间接创建。您可以前往ECS控制台的安全组界面创建安全组。该安全组需满足以下要求:

- 安全组的地域需与上方所属地域保持一致;

- 安全组的网络需选择ECS所在的VPC;

- 安全组类型支持普通安全组和企业级安全组。

- 入方向未设置任何访问限制。

3. 连通性检测通过后,单击确认,提交任务。系统将为您自动配置PostgreSQL数据源,期间当前业务空间会被锁定,禁止同时创建其他数据源。

在请求高峰时段,创建数据源过程可能需要几分钟,请耐心等待。

状态

说明

创建成功

表示数据源创建成功。请选择该数据源并执行选择数据表。

创建失败

表示数据源创建失败。请检查各项参数是否正确,修改后单击重新创建数据源。您可单击删除,删除创建失败的数据源。

查看连接器详情

连接器列表页,单击目标连接器的详情按钮,进入连接器详情页。详情页包含以下标签页:

  • 概览:显示连接器的基本信息(名称、描述、类型、创建时间、存储配额等)和自动生成的工具列表。

  • 文件/表格(仅平台托管类型):管理连接器中的文件或表格数据。

  • 工具:查看连接器自动生成的工具详情,包括参数说明和在线测试。

您可以在连接器详情页展开工具,填写参数后单击运行按钮,在线测试工具的返回结果。

同步数据规则

文件下,可点击同步数据规则->创建同步规则进入页面创建规则。

image

  1. 选择数据同步的类目

  2. 选择数据同步来源

    • OSS

      选择存储数据的 OSS Bucket。

      重要
      • 通过OSS的"事件通知"功能搭配MNS"消息队列"功能实现对OSS数据变更的感知。使用OSSMNS都会产生相应费用。参见OSS计费说明MNS计费说明

      • 创建OSS数据自动同步规则后,只会感知和同步规则创建的时间点之后的文件变更。如需同步存量 OSS 数据,请使用"导入数据-导入方式OSS"。

      • 请注意所选的OSS Bucket和 MNS 队列是否对应正确。

      • 每个数据管理节点下的同步规则,仅支持关联一个OSS bucketMNS队列。

    • 飞书

      通过以下步骤创建飞书应用、并配置导出权限等,然后获取凭证填入表单。

      1.创建飞书应用并获取凭证

      1. 登录飞书开放平台,在右上角单击开发者后台。进入后台后单击创建企业自建应用,填入应用名称应用描述应用图标,单击创建。

      2. 在应用管理页面,找到机器人能力,单击添加

      3. 在左侧导航栏单击权限管理,进入页签后单击批量导入/导出权限,将以下JSON格式权限描述代码复制进导入页签中,单击下一步,确认新增权限,单击申请开通

        {
          "scopes": {
            "tenant": [
              "aily:file:read",
              "aily:file:write",
              "application:application.app_message_stats.overview:readonly",
              "application:application:self_manage",
              "application:bot.menu:write",
              "cardkit:card:write",
              "contact:contact.base:readonly",
              "contact:user.employee_id:readonly",
              "corehr:file:download",
              "docs:document.content:read",
              "event:ip_list",
              "im:chat",
              "im:chat.access_event.bot_p2p_chat:read",
              "im:chat.members:bot_access",
              "im:message",
              "im:message.group_at_msg:readonly",
              "im:message.group_msg",
              "im:message.p2p_msg:readonly",
              "im:message:readonly",
              "im:message:send_as_bot",
              "im:resource",
              "sheets:spreadsheet",
              "wiki:wiki:readonly"
            ],
            "user": [
              "aily:file:read",
              "aily:file:write",
              "im:chat.access_event.bot_p2p_chat:read"
            ]
          }
        }
      4. 进入凭证与信息页面,分别复制App IDApp Secret,后续需要使用。

      2.为飞书应用配置访问知识库权限

      • 在飞书客户端创建一个群聊,并将应用添加至群聊中。

      • 知识库管理员前往知识库设置->成员设置->添加管理员

      • 搜索包含机器人的群聊,添加该群为管理员。

      点击连接检测,通过后填写自动同步频率,配置数据标签。

      重要
      • 通过飞书的"事件通知"功能搭配DTS"消息队列"功能实现对飞书数据变更的感知。使用DTS会产生相应费用。详见DTS计费说明

      • 飞书需要设置导出权限。

      • 飞书不支持mindnote文档的导出。

  3. 配置数据标签,然后点击确认即创建成功。

创建完成后显示在同步规则列表页,可在操作列对规则开启启用禁用

管理连接器

  • 编辑:点击卡片进入连接器详情页,单击右上角的编辑按钮,可以修改连接器的名称描述。连接器类型和存储方式创建后不可更改。image

  • 复制:在连接器列表页或详情页,单击复制按钮,可以基于当前连接器的配置快速创建一个新的连接器。

  • 删除:在连接器列表页,单击目标连接器卡片上的更多图标(···),选择删除;或在连接器详情页单击删除按钮。

    重要

    删除前需确认,删除后无法恢复

在智能体中使用数据连接器

创建连接器后,在智能体应用中配置数据连接器工具,使智能体在对话中自动调用这些工具来查询和引用外部数据。image

  1. 在智能体配置页面左侧,单击技能,找到数据连接器区域。

  2. 单击数据连接器区域的+按钮,在弹出的选择数据连接器对话框中:

    1. 浏览或搜索目标连接器,支持按连接器类型筛选。

    2. 单击目标连接器的添加按钮。

  • 添加后,连接器的工具会自动显示在配置列表中。您可以单击工具右侧的设置按钮调整参数。image

  • 发布智能体,即可在对话中自动调用这些工具。

相关文档

创建知识库导入数据源内容,用于后续检索:创建和使用知识库