全部产品
大数据开发套件

步骤3:创建同步任务

更新时间:2017-08-31 15:21:41   分享:   

在大数据开发套件中,通常使用数据集成功能,将您的系统中产生的业务数据定期导入到工作区,通过工作流任务的计算后,再将计算结果定期导出到您指定的数据源中,供进一步展示或运行使用。

目前数据集成功能支持从以下数据源中将数据导入工作空间或将数据从工作空间导出:RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB 等,详细的数据源类型列表请参见 支持数据源类型

本文将以 MySQL 数据源为例,说明如何利用数据集成功能将大数据开发套件中的数据导出到 MySQL 数据源中。

前提条件

如果您是 ECS 上自建的数据库 或者您是 RDS 数据源(目前 RDS 数据源仅支持华东1(杭州)域的 RDS,北京地域暂时不支持),都需要在自己的 ECS(在安全组中放行)/RDS(在白名单中添加) 上添加数据同步机器 IP 白名单:

11.192.97.82,11.192.98.76,10.152.69.0/24,10.153.136.0/24,10.143.32.0/24,120.27.160.26,10.46.67.156,120.27.160.81,10.46.64.81,121.43.110.160,10.117.39.238,121.43.112.137,10.117.28.203,118.178.84.74,10.27.63.41,118.178.56.228,10.27.63.60,118.178.59.233,10.27.63.38,118.178.142.154,10.27.63.15,100.64.0.0/8

注意:

若使用自定义资源组调度 RDS 的数据同步任务,必须把自定义资源组的机器 IP 也加到 RDS 的白名单中。

操作步骤

新增数据源

注意:

只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。

  1. 以项目管理员身份进入 大数据开发套件管理控制台,单击 项目列表 下对应项目操作栏中的 进入工作区

  2. 进入顶部菜单栏中的 数据集成 页面,单击左侧导航栏中的 数据源

  3. 单击右上角的 新增数据源,如下图所示:

  4. 填写新增数据源弹出框中的各配置项,如下图所示:

    配置说明如下:

    • 数据源名称:字母、数字、下划线组合,且不能以数字和下划线开头。比如:abc_123。

    • 数据源描述:不超过 80 个字符。

    • 数据源类型:根据自身需求进行选择,请确认选择的数据源内有表。

      • 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。

      • 专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的 IP 地址范围、划分网段、配置路由表和网关。支持公网连接,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗,无特殊情况不建议使用。

    • 网络类型:根据自身需求进行选择。

    • JDBC URL:< jdbc:mysql://host:port/database>。

    • 用户名/密码:数据库对应的用户名和密码。

    不同数据源类型对应的配置说明,请参见 数据源配置

  5. 单击 测试连通性

  6. 若测试连通性成功,单击 保存 即可。

    若测试连通性失败,请根据自身情况参见:ECS 上自建的数据库测试连通性失败RDS 数据源测试连通性不通

确认作为目标的 Mysql 数据库中有表

在 Mysql 数据库中创建表 odps_result ,建表语句如下所示:

  1. CREATE TABLE `ODPS_RESULT` (
  2. `education` varchar(255) NULL ,
  3. `num` int(10) NULL
  4. )

建表完成后,可通过 desc odps_result; 语句查看表详情。

新建并配置同步节点

本节将新建一个同步节点 write_result 并进行配置,以把表 result_table 中的数据写入到自己的 MySQL 数据库中。具体操作如下:

  1. 新建同步节点 write_result,如下图所示:

  2. 选择来源。

    选择 MaxCompute 数据源及源头表 result_table,然后单击 下一步,如下图所示:

  3. 选择目标。

    选择 Mysql 数据源及目标表 odps_result,然后单击 下一步,如下图所示:

  4. 映射字段。

    选择字段的映射关系。需对字段映射关系进行配置,左侧 源头表字段 和右侧 目标表字段 为一一对应的关系。

  5. 通道控制。

    单击 下一步,配置作业速率上限和脏数据检查规则,如下图所示:

  6. 预览保存。

    完成以上配置后,上下滚动鼠标可查看任务配置,如若无误,单击 保存,如下图所示:

提交数据同步任务

同步任务保存后,单击右边的 提交,将同步任务提交到调度系统中,调度系统会按照配置属性在从第二天开始自动定时执行。

后续步骤

现在,您已经学习了如何创建同步任务把数据导出到不同类型的数据源中,您可以继续学习下一个教程。在该教程中您将学习如何设置同步任务的调度属性和依赖关系。详情请参见 设置任务的调度属性和依赖关系

本文导读目录
本文导读目录
以上内容是否对您有帮助?