本文将为您介绍如何通过创建同步任务,导出MaxCompute中的数据至MySQL数据源中。

前提条件

您需要首先通过RDS创建MySQL实例,获取RDS实例ID,并在RDS控制台添加白名单。详情请参见创建RDS MySQL实例添加白名单
说明 如果是通过自定义资源组调度RDS的数据同步任务,必须把自定义资源组的机器IP也加入RDS的白名单中。

背景信息

在DataWorks中,通常通过数据集成功能,定期导入系统中产生的业务数据至工作区。SQL任务进行计算后,再定期导出计算结果至您指定的数据源中,以便进一步展示或运行使用。工作流程

目前数据集成功能支持从RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、DM、HDFS和MongoDB等数据源中,导入数据至工作空间或从工作空间导出数据。详细的数据源类型列表请参见支持的数据源

新增数据源

说明 仅项目管理员角色可以新建数据源,其它角色的成员仅支持查看数据源。
  1. 以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成
  2. 单击左侧导航栏中的数据源,跳转至工作空间管理 > 数据源管理页面。
  3. 数据源管理页面,单击右上角的新增数据源
  4. 新增数据源对话框中,选择数据源类型为MySQL
  5. 配置新增MySQL数据源对话框中的参数,此处以创建阿里云实例模式类型为例。
    参数 描述
    数据源类型 当前选择的数据源类型为MySQL > 阿里云实例模式
    数据源名称 数据源名称必须以字母、数字、下划线组合,且不能以数字和下划线开头。
    数据源描述 对数据源进行简单描述,不得超过80个字符。
    适用环境 可以选择开发生产环境。
    说明 仅标准模式工作空间会显示该配置。
    地区 选择相应的区域。
    RDS实例ID 您可以进入RDS控制台,查看RDS实例ID。
    RDS实例主账号ID 实例购买者登录控制台,进入安全设置页面,即可查看实例账号ID。
    数据库名 输入对应的数据库名称。
    用户名 输入数据库对应的用户名。
    密码 输入数据库对应的密码。
  6. 单击测试连通性
  7. 如果测试连通性成功,单击完成

确认作为目标的MySQL数据库中有表

在MySQL数据库中创建表odps_result,建表语句如下所示。
CREATE TABLE `ODPS_RESULT` (
`education`  varchar(255) NULL ,
`num`  int(10) NULL 
);

建表完成后,您可以执行desc odps_result;语句,查看表详情。

新建并配置同步节点

本节将新建一个同步节点write_result并进行配置,目的是把表result_table中的数据写入至自己的MySQL数据库中。具体操作如下:

  1. 切换至数据开发面板,新建一个离线同步节点write_result
  2. 设置write_result节点的上游节点为insert_data节点。
  3. 选择数据源ODPS > odps_first)、result_table)为数据来源。
  4. 选择您新建的MySQL数据源中的表(odps_result)为数据去向。
  5. 选择字段的映射关系。
    左侧的源头表字段和右侧的目标表字段为一一对应关系。单击添加一行可以增加单个字段,鼠标放至需要删除的字段上,即可单击删除图标进行删除。
  6. 在通道控制模块,配置作业速率上限和脏数据检查规则。
    通道控制
    参数 描述
    任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
    同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
    错误记录数 错误记录数,表示脏数据的最大容忍条数。
    任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增自定义资源组
  7. 预览保存。
    完成上述配置后,上下滚动鼠标即可查看任务配置。确认无误后,单击保存进行保存。

提交数据同步任务

同步任务保存后,返回业务流程。单击工具栏中的提交,将同步任务提交至调度系统中。调度系统会根据配置的属性,从第2天开始自动定时执行。

后续步骤

现在,您已经学习了如何创建同步任务,将数据导出至不同类型的数据源中,您可以继续下一个教程。在该教程中,您将学习如何设置同步任务的调度属性和依赖关系。详情请参见设置周期和依赖