本文为您介绍创建数据集成任务的流程和操作步骤。

数据集成是阿里巴巴集团对外提供的可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展的数据同步平台,为数据源提供不同网络环境下的全量/增量数据进出通道。

Reader插件通过远程连接数据库,并执行相应的SQL语句,将数据从数据库中Select出来,从底层实现了从数据库读取数据。

Writer插件通过远程连接数据库,并执行相应的SQL语句,将数据写入数据库,从底层实现了向数据库写入数据。
流程

数据集成任务准备工作

创建阿里云账号
  1. 开通阿里云主账号,并创建账号的访问密钥,即AccessKeys。
  2. 开通MaxCompute,自动产生一个默认的MaxCompute数据源,并使用主账号登录DataWorks。
  3. 创建工作空间。您可在工作空间中协作完成工作流,共同维护数据和任务等,因此使用DataWorks前需要先创建工作空间。
说明 如果您想通过子账号创建数据集成任务,可以赋予其相应的权限。详情请参见准备RAM子账号
创建源端和目标端数据库和表
  1. 您可以使用建表语句或直接通过客户端建表,不同的数据源库创建数据库和表,请参见相应数据库的官方文档进行创建。
  2. 给相关数据库和表赋予读写的权限。
说明 通常至少需要赋予Reader端读的权限,赋予Writer端增、删、改的权限,建议提前赋予数据库中的表足够的权限。

数据集成任务操作步骤

创建数据源
  1. 从数据库获取相关的数据源信息。
  2. 在界面配置相关的数据源。
说明
  • 界面配置数据源只支持一部分,如果在界面找不到相关的配置数据源界面可以直接脚本模式配置,将相关的数据源信息填写在JSON脚本中。
  • 支持数据源的情况,请参见支持的数据源类型
  • 如何配置数据源和注意细节请参见数据源配置
创建自定义资源组(可选)
  1. 创建自定义资源组,详情请参见资源组
  2. 添加服务器。
  3. 安装Agent。
  4. 检查连通性。
说明
配置数据集成任务
  1. 配置同步任务的读取端,每个Reader插件的配置细节请参见配置Reader插件
  2. 配置同步任务的写入端,每个Writer插件的配置细节请参见配置Writer插件
  3. 配置同步任务读写端的映射关系。
  4. 配置同通道控制,您可以在该步骤切换相关的资源组
说明
  • 您可以通过向导模式和脚本模式配置同步任务,详情请参见向导模式配置脚本模式配置
  • 配置任务时,您可以对您的任务进行速度调优,详情请参见优化配置
  • 向导模式可以转换成脚本模式,脚本模式不能转换成向导模式,我们已为您提供全部插件的模板。
运行数据集成任务
  1. 您可以直接在界面运行数据集成任务,日志不会保存。
  2. 提交之前需要进行调度配置,提交后一般第二天产生实例。详情请参见调度配置模块的文档。
说明
  • 您配置任务时可以设置相关调度参数
  • 测试同步任务时,不能直接调用调度配置中的参数,您需要提交后,才可以自动调用调度配置中配置的参数。

查看运行日志

您可以进入运维中心页面,查看运行结果。

说明
  • 您可以进入运维中心找到DAG图,右键查看运行日志
  • 在同步任务是幂等可自动重跑的前提下,如果您的任务运行失败,可以配置调度重跑,这样失败的任务可以自动重跑,增加系统稳定性。