数据集成设置

本章节将为您介绍DataWorks的数据集成中用于统一管理和配置的几个核心功能。通过这些功能,您可以对认证文件、DDL消息处理策略、任务模板、公共报警规则等进行集中化、标准化的管理,从而提升开发效率和项目的规范性。

配置入口

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据集成 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 在数据集成页面的左侧导航栏的配置选项下,单击需要配置的模块:认证文件管理实时同步DDL消息处理策略任务模板公共报警规则

认证文件管理

认证文件管理提供了一个统一的管理界面,用于管理配置数据源过程中的需要上传的Kerberos配置文件,可实现一次上传多次复用。详情参见:第三方认证文件管理

实时同步DDL消息处理策略

功能说明

实时同步DDL消息处理策略支持为不同的目标数据源类型(如 MaxCompute、Hologres 等)预设默认的DDL(数据结构变更)同步策略。设置后,未来创建新的整库实时同步任务时,系统将自动加载此配置,简化操作。

  1. 选择目标类型:在同步至下拉菜单中,选择需要配置的目标数据源类型。

  2. 设置同步策略:为不同类型的源端DDL变更消息(如新增列、清空表),配置相应的处理方式并保存。

    • 正常处理:由目标端处理源端的DDL变更信息。

      重要

      当源端新增列并通过DDL同步在目标端也创建了该列后,系统不会对目标表中的存量数据进行数据回填。

    • 忽略:忽略变更消息,目标端不做修改。

    • 告警:当源端表出现此类变更时,向用户报警。需配合报警配置,详情参见报警配置

    • 出错:终止整库实时同步任务,状态置为出错

  3. 保存后,再次创建目标为此类型的整库实时同步任务时,系统将自动应用刚才保存的DDL策略。

  4. 同时,在任务详情页右上角,单击高级配置 > DDL能力配置,可为单个任务配置DDL消息处理策略,实现个性化配置。

实施建议

MySQLPolarDB MySQL源端实时同步,建议您在源端新增列时采用末尾追加列方式,不要采用在中间字段加列方式。如果源端无法避免中间字段加列,需要注意以下约束条件:

  • 全量初始化阶段,不要进行中间字段加列,否则会导致实时同步阶段数据异常。

  • 实时同步阶段,同步位点重置时间需要设置在中间字段加列DDL事件之后,否则会导致后续实时同步数据异常。

如果发生数据异常,可编辑任务将中间加列的表剔除,并执行应用更新以恢复正确数据。

任务模版

说明

部分通道不支持使用任务模版功能,可使用克隆功能代替。

数据集成支持将已配置的任务保存为任务模版,方便在下次新建任务时,导入模版以快速创建任务。

核心用途

  • 标准化开发:将通用的任务配置保存为模版,供团队成员复用,以统一开发规范。

  • 提升开发效率:创建新任务时,可以直接基于现有模版进行修改,快速完成开发,减少重复劳动。

  • 知识沉淀:将优秀或复杂的任务实现保存为模版,便于知识的分享和传承。

主要操作

  • 查看模版列表:您可以查看到当前项目下所有可用的任务模版,包括其模版ID、名称和更新时间。

  • 检索模版:通过上方的搜索框,可以根据任务名称、模版ID或相关数据源信息等快速定位到所需模版。

  • 管理模版:列表中的操作列支持对模版进行删除操作。

公共报警规则

公共报警规则支持创建和管理可在数据集成内复用的标准化报警规则,实现了一次定义,多处引用,极大地简化了报警配置和维护工作。

核心用途

  • 标准化监控:为不同类型的任务(如关键任务、普通任务)或不同的报警场景(如出错、变慢、未运行)定义统一的报警标准。

  • 提升配置效率:在为任务配置报警时,可以直接引用已创建的公共规则,无需重复填写通知方式、联系人等信息。

  • 集中化管理:在一个统一的视图中管理所有的报警规则,便于批量修改通知人、调整报警阈值等。

主要操作

  • 创建新规则:单击新建按钮,新建公共报警规则,定义报警名称报警原因(如业务延迟、脏数据、Failover)、并配置报警方式(如电话、短信、邮件、钉钉、webhook、飞书等)和疲劳度控制。报警配置详情参见:实时同步任务告警设置最佳实践

    说明

    webhook和飞书仅支持企业版。

  • 任务引用:单击任务引用,将报警规则高效地应用到多个任务中,或从其中移除。您还可以批量启用或暂停这些任务的报警,避免多次重复操作。

  • 模拟测试:发送测试报警,用于检验报警配置的正确性,并确保消息能送达指定接收人。

    说明

    此功能会发送真实报警通知,请合理使用,以免对他人造成不必要的影响。