离线同步任务AI辅助处理

DataWorks的单表离线同步任务支持在数据同步过程中使用通义千问模型对数据进行处理,将处理后的数据同步至目标端。本文为您介绍如何创建一个具备AI处理能力的数据集成任务。

前提条件

计费说明

DataWorks本身会收取的版本费用、资源组费用外,此功能还需要支付模型推理(调用)费用

案例说明

本案例以Hologres为例,介绍Hologres单表离线同步至Hologres时,如何使用AI辅助处理功能,将数据来源表中feedback_info列的数据翻译为英文并同步至目标表。

来源表数据准备

CREATE TABLE customer_feedback (
    id BIGINT PRIMARY KEY,
    device STRING,
    feedback_info STRING,
    pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');

INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', '价格实惠,适合学生党,性能够用', 2020),
(1, 'iphone', '这个商品还行,我用了1年', 2013),
(10, 'Bose QuietComfort 35 II', '降噪耳机中的经典,舒适度满分', 2021);

一、创建离线同步任务

  1. 进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

  2. 在左侧导航栏单击image,进入数据开发页面,在项目目录右侧单击image,选择新建节点 > 数据集成 > 离线同步,进入新建节点对话框。

  3. 设置节点路径数据来源去向和节点名称后,单击确认,创建离线同步节点。

    本文以Hologres同步至Hologres为例,介绍离线同步任务中的AI辅助处理功能。

二、配置同步任务

创建离线同步节点后,会自动进入任务编辑页面,您需要在此页面配置如下信息:

1、数据源

分别配置数据同步任务的数据来源和数据去向。

  • 类型创建离线同步任务步骤中已选择的数据来源和去向的数据源类型,不支持修改,如需修改请重新创建离线同步任务。

  • 配置方式

    • 快速配置:手动配置数据来源与数据去向的连接信息,详细的配置参数解释可在配置界面查看对应参数的文案提示。

    • 使用已有数据源:请在数据源参数后的下拉列表中选择已创建的数据源。

      说明

      数据源中只展示对应类型的数据源。

image

2、运行资源

  1. 选择同步任务所使用的资源组。如果使用Serverless资源组,您还可以为该任务分配资源占用CU数。

  2. 选择资源组后,数据集成将自动检测资源组与数据来源、数据去向的连通性,您也可以手动单击连通性检查

image

3、数据来源

配置数据来源具体待同步的表信息,如Schema分区数据过滤条件等。您可以单击数据预览,查看待同步的具体数据。

image

4、数据处理

  1. 在数据处理区域,您可以开启数据处理能力,数据处理能力需要更多的计算资源,会增加任务的资源占用开销。

  2. 单击添加节点,当前支持字符串替换AI辅助处理。本案例以AI辅助处理为例进行介绍。

    image

  3. 配置AI辅助处理相关信息。

    image

    关键参数解释如下:

    • 模型提供商:当前仅支持阿里百炼平台

    • 模型名称:当前支持qwen-turboqwen3-1.7bqwen3-0.6bqwen1.5-1.8b-chat

    • API Key:需前往阿里百炼平台获取API Key

    • 处理工作描述:请使用自然语言描述对来源字段的处理,字段名以#{column_name}格式书写。

      例如,本案例中,此处填写请将'#{feedback_info}'翻译成英文

    • 写入字段:此处请输入存储结果字段的名称,如果对应字段不存在,将自动新增一个字段。

    说明

    本案例的示例配置中,会将来源表的feedback_info字段翻译成英文,并存储到feedback_processed字段中。

  4. 您可以单击AI辅助处理区域右上角的数据输出预览,查看输出的最终数据效果。

  5. (可选)您可以配置多个先后按顺序执行的数据处理流程。

    image

5、数据去向

  1. 配置数据同步的目标表信息,例如Schema表名分区等。

    • 您可以单击一键生成目标表结构,快速生成目标表。

    • 如果目标端中已存在表用于接收数据,则按需选择即可。

  2. 配置写入模式以及写入冲突策略

    image

  3. 配置同步前是否要清空Hologres表中的已有数据。

  4. (可选)配置最大连接数

    最大连接数仅在写入模式为SQL(INSERT INTO)下生效,在开启任务时请确保Hologres实例有充足的空闲连接。一个任务最多使用9个连接。

6、去向字段映射

配置完成数据来源、数据处理和数据去向后,会在此处展示来源与去向表间的字段映射关系,默认为同名映射和同行映射,你也可以按需进行调整。

说明

本案例中除了将源表已有字段(iddevicefeedback_infopt)同名映射外,还需要手动将源表中存储翻译后结果的feedback_processed字段,映射至目标表的translate_feedback字段中。

image

三、调试任务

  1. 在离线同步任务的编辑窗口右侧,单击调试配置,配置调试本节点使用的资源组和相关脚本参数

  2. 单击节点顶部工具栏的保存,然后单击运行,等待运行结束,查看运行结果是否成功,您可以前往目标端数据库查看表数据是否符合预期。

四、调度配置

若离线同步节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的节点调度属性

五、节点发布

请单击节点工具栏的发布图标唤起发布流程,通过该流程将任务发布至生产环境。只有在发布至生产环境后,才会进行周期性调度。

后续操作:任务运维

节点发布后,您可以在发布流程中单击补数据去运维

  • 补数据:仅支持对当前节点进行补数据。如果需要更复杂的补数据功能请前往运维中心操作。更多信息,请参见执行补数据并查看补数据实例(新版)

  • 去运维:任务发布后将自动进入运维中心,您可在运维中心查看任务运行情况,或手动触发任务执行。详情请参见:运维中心