本文向您介绍如何将DLF中的数据同步至ES。
适用范围
实例版本:阿里云Elasticsearch 8.15及以上版本支持该功能。
地域:DLF与ES所属同一地域。
同步机制
目前同步任务采用全量同步机制,任务首次启动时,会完整地将DLF源表中的存量数据进行一次性同步至ES。
计费说明
数据同步任务不涉及计费,数据同步至ES后涉及节点存储空间费用,通过费用与成本中心,查看消费明细。
创建并配置同步任务
以下步骤将引导您完成从创建任务到启动同步的完整配置。
进入同步任务创建页
此步骤的目的是导航至功能入口。
登录Elasticsearch控制台,在顶部菜单栏,将地域切换至目标地域。
找到目标实例,单击实例ID进入基本信息页面。
在左侧导航栏,单击。
在使用AI搜索开放平台-多模态数据处理与同步服务区域选择模型服务空间名称,然后单击初始化模型,待初始化完成后单击立即使用。
模型服务空间名称:为AI搜索开放平台中已存在的空间,其中default为AI搜索开放平台默认空间,其他空间(如有)由用户创建。
初始化模型:通过初始化使选定空间下的模型处于可用状态。
在同步任务列表页,单击创建。
配置基础信息
此步骤的目的是配置任务名称,并建立与数据源DLF的连接,按照页面提示进行基础信息配置:
参数
描述与建议
任务名称
为同步任务设置的名称,应便于识别。
API Key
您需要预先在AI搜索开放平台创建API Key。
数据源
选择数据湖构建(DLF)。
表格式
支持Paimon和Lance两种格式的数据表,本示例选择Paimon。
数据目录
根据实际情况填写。
数据库
数据表
RAM角色
授权ES使用AI搜索开放平台默认角色。
执行此操作时,将会自动创建一个服务关联角色,已完成相应功能。
角色名称:AliyunServiceRoleForSearchPlat
角色权限策略:AliyunServiceRolePolicyForSearchPlat
说明:允许AI搜索开放平台服务访问您的资源。完成配置后单击下一步。

配置数据加工信息
在数据加工页签筛选所需字段。

配置字段映射
此步骤的目的是建立源端字段与ES目标索引字段之间的对应关系。
ES信息配置:输入连接ES的用户名、密码以及数据去向索引表。
在字段映射配置页签,完成以下配置:
配置字段映射关系
系统会根据同名原则自动匹配,您也可以手动调整。
待同步字段:需要同步的数据源含原始字段。
去向索引字段:ES索引中用于接收数据的目标字段。
主键:选择一个字段作为文档在ES中的唯一标识(
_id)。
目前仅支持配置单个主键。如果您的源表使用复合主键,建议在源端创建一个新列,将复合主键拼接为唯一的字符串ID,并使用该列作为同步主键。
确认所有待同步字段都已正确映射后,单击下一步。

配置并启动同步
此步骤的目的是确认同步策略配置并启动任务。在数据同步配置页签,确认配置无误后单击完成启动任务。

管理与监控同步任务
任务创建后,您可以在同步任务列表页面进行管理和监控。
查看任务状态:任务状态包括启动中、运行中、运行失败。
管理操作:
复制创建:快速复制一个现有任务的配置,用于批量创建类似任务。
删除:删除不再需要的任务,任务删除后不可恢复,请谨慎操作。
验证数据同步结果
您可以登录Kibana查询数据是否同步成功。