将DLF数据同步至阿里云ES

本文向您介绍如何将DLF中的数据同步至ES。

适用范围

  • 实例版本:阿里云Elasticsearch 8.15及以上版本支持该功能。

  • 地域:DLFES所属同一地域。

同步机制

目前同步任务采用全量同步机制,任务首次启动时,会完整地将DLF源表中的存量数据进行一次性同步至ES。

计费说明

数据同步任务不涉及计费,数据同步至ES后涉及节点存储空间费用,通过费用与成本中心,查看消费明细。

创建并配置同步任务

以下步骤将引导您完成从创建任务到启动同步的完整配置。

  1. 进入同步任务创建页

    此步骤的目的是导航至功能入口。

    1. 登录Elasticsearch控制台,在顶部菜单栏,将地域切换至目标地域。

    2. 找到目标实例,单击实例ID进入基本信息页面。

    3. 在左侧导航栏,单击AI服务中心 > 数据处理与同步

    4. 使用AI搜索开放平台-多模态数据处理与同步服务区域选择模型服务空间名称,然后单击初始化模型,待初始化完成后单击立即使用

      模型服务空间名称:为AI搜索开放平台中已存在的空间,其中defaultAI搜索开放平台默认空间,其他空间(如有)由用户创建。
      初始化模型:通过初始化使选定空间下的模型处于可用状态。
    5. 在同步任务列表页,单击创建

  2. 配置基础信息

    此步骤的目的是配置任务名称,并建立与数据源DLF的连接,按照页面提示进行基础信息配置

    参数

    描述与建议

    任务名称

    为同步任务设置的名称,应便于识别。

    API Key

    您需要预先在AI搜索开放平台创建API Key

    数据源

    选择数据湖构建(DLF)

    表格式

    支持PaimonLance两种格式的数据表,本示例选择Paimon

    数据目录

    根据实际情况填写。

    数据库

    数据表

    RAM角色

    授权ES使用AI搜索开放平台默认角色

    执行此操作时,将会自动创建一个服务关联角色,已完成相应功能。
    角色名称:AliyunServiceRoleForSearchPlat
    角色权限策略:AliyunServiceRolePolicyForSearchPlat
    说明:允许AI搜索开放平台服务访问您的资源。

    完成配置后单击下一步

    image

  3. 配置数据加工信息

    数据加工页签筛选所需字段。

    image

  4. 配置字段映射

    此步骤的目的是建立源端字段与ES目标索引字段之间的对应关系。

    ES信息配置:输入连接ES用户名密码以及数据去向索引表。

    字段映射配置页签,完成以下配置:

    1. 配置字段映射关系

      系统会根据同名原则自动匹配,您也可以手动调整。

      • 待同步字段:需要同步的数据源含原始字段。

      • 去向索引字段:ES索引中用于接收数据的目标字段。

      • 主键:选择一个字段作为文档在ES中的唯一标识(_id)。

      目前仅支持配置单个主键。如果您的源表使用复合主键,建议在源端创建一个新列,将复合主键拼接为唯一的字符串ID,并使用该列作为同步主键。
    2. 确认所有待同步字段都已正确映射后,单击下一步

      image

  5. 配置并启动同步

    此步骤的目的是确认同步策略配置并启动任务。在数据同步配置页签,确认配置无误后单击完成启动任务。

    image

管理与监控同步任务

任务创建后,您可以在同步任务列表页面进行管理和监控。

  • 查看任务状态:任务状态包括启动中运行中运行失败

  • 管理操作:

    • 复制创建:快速复制一个现有任务的配置,用于批量创建类似任务。

    • 删除:删除不再需要的任务,任务删除后不可恢复,请谨慎操作

验证数据同步结果

您可以登录Kibana查询数据是否同步成功。