本文为您介绍如何通过创建同步任务,导出MaxCompute中的数据至MySQL数据源中。

前提条件

您需要首先通过RDS创建MySQL实例,获取RDS实例ID,并在RDS控制台添加白名单。详情请参见创建RDS MySQL实例添加白名单
说明 如果是通过自定义资源组调度RDS的数据同步任务,必须把自定义资源组的机器IP也加入RDS的白名单中。

背景信息

在DataWorks中,通常通过数据集成功能,定期导入系统中产生的业务数据至工作区。SQL任务进行计算后,再定期导出计算结果至您指定的数据源中,以便进一步展示或运行使用。工作流程

目前数据集成功能支持从RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、DM、HDFS和MongoDB等数据源中,导入数据至工作空间或从工作空间导出数据。详细的数据源类型列表请参见支持的数据源与读写插件

新增数据源

说明 仅项目管理员角色可以新建数据源,其它角色的成员仅支持查看数据源。
  1. 进入数据源管理页面。
    1. 登录DataWorks控制台
    2. 在左侧导航栏,单击工作空间列表
    3. 选择工作空间所在地域后,单击相应工作空间后的进入数据集成
    4. 在左侧导航栏,单击数据源,进入工作空间管理 > 数据源管理页面。
  2. 数据源管理页面,单击右上角的新增数据源
  3. 新增数据源对话框中,选择数据源类型为MySQL
  4. 新增MySQL数据源对话框,配置各项参数。
    此处以创建阿里云实例模式类型为例。实例模式
    参数 描述
    数据源类型 当前选择的数据源类型为阿里云实例模式
    数据源名称 数据源名称必须以字母、数字、下划线(_)组合,且不能以数字和下划线(_)开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示该配置。
    地区 选择相应的地域。
    RDS实例ID 您可以进入RDS控制台,查看RDS实例ID。
    RDS实例主账号ID 实例购买者登录DataWorks控制台,鼠标悬停至右上角的用户头像,单击安全设置,查看账号ID。
    数据库名 该数据源对应的数据库名称。
    用户名 数据库对应的用户名。
    密码 数据库对应的密码。
  5. 数据集成页签下,单击相应资源组后的测试连通性
    数据同步时,一个任务只能使用一种资源组。您需要测试每种资源组的连通性,以保证同步任务使用的数据集成资源组能够与数据源连通,否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组,请选中相应资源组后,单击批量测试连通性。详情请参见数据源测试连通性
  6. 测试连通性通过后,单击完成

确认作为目标的MySQL数据库中有表

在MySQL数据库中创建表odps_result,建表语句如下所示。
CREATE TABLE `ODPS_RESULT` (
`education`  varchar(255) NULL ,
`num`  int(10) NULL 
);

建表完成后,您可以执行desc odps_result;语句,查看表详情。

新建并配置同步节点

本节将新建一个同步节点write_result并进行配置,目的是把表result_table中的数据写入至自己的MySQL数据库中。具体操作如下:

  1. 切换至数据开发面板,新建一个离线同步节点write_result
  2. 设置write_result节点的上游节点为insert_data节点。
    依赖关系
  3. 选择数据源ODPS > odps_first)、result_table)为数据来源。
  4. 选择您新建的MySQL数据源中的表(odps_result)为数据去向。
    选择数据来源
  5. 选择字段的映射关系,左侧的源头表字段和右侧的目标表字段为一一对应关系。
  6. 通道控制区域,配置作业速率上限和脏数据检查规则。
    通道控制
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。
  7. 预览保存。
    完成上述配置后,上下滚动鼠标即可查看任务配置。确认无误后,单击工具栏中的保存图标。

提交数据同步任务

同步任务保存后,返回业务流程。单击工具栏中的提交图标,提交同步任务至调度系统中。调度系统会根据配置的属性,从第二天开始自动定时执行。

后续步骤

现在,您已经学习了如何创建同步任务,将数据导出至不同类型的数据源中,您可以继续下一个教程。在该教程中,您将学习如何设置同步任务的调度属性和依赖关系。详情请参见设置周期和依赖