本文为您介绍如何通过创建同步任务,导出MaxCompute中的数据至MySQL数据源中。
背景信息
在DataWorks中,通常通过数据集成功能,定期导入系统中产生的业务数据至工作区。SQL任务进行计算后,再定期导出计算结果至您指定的数据源中,以便进一步展示或运行使用。
目前数据集成功能支持从RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、DM、HDFS和MongoDB等数据源中,导入数据至工作空间或从工作空间导出数据。详细的数据源类型列表请参见支持的数据源与读写插件。
新增数据源
说明 仅项目管理员角色可以新建数据源,其它角色的成员仅支持查看数据源。
- 进入数据源管理页面。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的进入数据集成。
- 在左侧导航栏,单击,进入页面。
- 在数据源管理页面,单击右上角的新增数据源。
- 在新增数据源对话框中,选择数据源类型为MySQL。
- 在新增MySQL数据源对话框,配置各项参数。
此处以创建
阿里云实例模式类型为例。

参数 |
描述 |
数据源类型 |
当前选择的数据源类型为阿里云实例模式。
|
数据源名称 |
数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。 |
数据源描述 |
对数据源进行简单描述,不得超过80个字符。 |
适用环境 |
可以选择开发或生产环境。
|
地区 |
选择相应的地域。 |
RDS实例ID |
您可以进入RDS控制台,查看RDS实例ID。
|
RDS实例主账号ID |
实例购买者登录DataWorks控制台,鼠标悬停至右上角的用户头像,查看账号ID。
|
默认数据库名 |
此处配置的是该数据源对应的默认数据库名称。后续配置同步任务的说明如下:
- 配置整库同步(包含实时和离线)或同步解决方案任务时,您可以选择相应RDS实例下所有具有权限的数据库。
- 配置离线同步任务,当您选择使用多个数据库时,则每个数据库均需要配置一个数据源。
|
用户名 |
登录数据库的用户名称。 |
密码 |
登录数据库的密码。密码中避免使用@符号。
|
- 测试资源组连通性。
在
数据集成和
任务调度页签下,分别单击相应资源组后的测试连通性,连通状态为可连通时,表示连通成功。
说明
- 数据同步时,一个任务只能使用一种资源组。
- 您需要测试每种资源组的连通性,以保证同步任务使用的资源组能够与数据源连通,否则将无法正常执行数据同步任务。

- 测试连通性通过后,单击完成。
新建并配置同步节点
本节将新建一个同步节点write_result并进行配置,目的是把表result_table中的数据写入至自己的MySQL数据库中。具体操作如下:
- 切换至数据开发面板,新建一个离线同步节点write_result。
- 在业务流程页面,设置write_result节点的上游节点为insert_data节点。
- 在离线同步节点页面,选择数据源()、表(result_table)为数据来源。
- 选择您新建的MySQL数据源中的表(odps_result)为数据去向。
- 选择字段的映射关系,左侧的源头表字段和右侧的目标表字段为一一对应关系。
- 在通道控制区域,配置作业速率上限和脏数据检查规则。
配置完成上述操作后,请进行通道控制。

参数 |
描述 |
任务期望最大并发数 |
数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。 |
同步速率 |
设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。 |
错误记录数 |
错误记录数,表示脏数据的最大容忍条数。 |
分布式处理能力 |
数据同步时,可以将任务切片分散到多台执行节点上并发执行,提高同步速率。该模式下,配置较大任务并发数会增加数据存储访问压力,如需使用该功能,请提前评估数据存储的访问负载。该功能仅支持在独享数据集成资源组配置。 |
- 预览保存。
完成上述配置后,上下滚动鼠标即可查看任务配置。确认无误后,单击工具栏中的

图标。
提交数据同步任务
同步任务保存后,返回业务流程。单击工具栏中的
图标,提交同步任务至调度系统中。调度系统会根据配置的属性,从第二天开始自动定时执行。
后续步骤
现在,您已经学习了如何创建同步任务,将数据导出至不同类型的数据源中,您可以继续下一个教程。在该教程中,您将学习如何设置同步任务的调度属性和依赖关系。详情请参见设置周期和依赖。