全部产品
大数据开发套件

步骤3: 创建同步任务

更新时间:2017-06-10 19:50:45   分享:   

在大数据开发套件中,通常使用数据集成功能,将用户自己的系统中产生的业务数据定期导入到工作区,通过工作流任务的计算后,再将计算结果定期导出到用户指定的数据源中,供进一步展示或运行使用.

目前数据集成功能支持从以下数据源中将数据导入工作空间或将数据从工作空间导出:RDS、MySQL、SQL Server、PostgreSQL、MaxCompute、OCS、DRDS、OSS、Oracle、FTP、 dm、Hdfs、MongoDB等,详细的数据源类型列表请参见:支持数据源类型

di2

本文将以MySQL数据源为例,说明如何利用数据集成功能将大数据开发套件中的数据导出到MySQL数据源中。详细操作如下:

1. 新增数据源

注意:只有项目管理员角色才能够新建数据源,其他角色的成员仅能查看数据源。

a. 以项目管理员身份进入 阿里云数加平台>大数据开发套件>管理控制台,点项目列表下对应项目操作栏中的 进入工作区

b. 进入顶部菜单栏中的数据集成页面,点击左侧导航栏中的 数据源

c. 点击右上角的 新增数据源,如下图所示:

1

d. 在新增数据源弹出框中填写相关配置项,如下图所示:

1

  • 数据源名称:字母、数字、下划线组合,且不能以数字和下划线开头。比如:abc_123。
  • 数据源描述:不超过80个字符。
  • 数据源类型:根据自身需求进行选择,请确认选择的数据源内有表。
  • 网络类型:根据自身需求进行选择。
  • JDBC URL:< jdbc:mysql://host:port/database>。
  • 用户名/密码:数据库对应的用户名和密码。

名词解释:

经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。

专有网络:基于阿里云构建出一个隔离的网络环境。您可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围、划分网段、配置路由表和网关。支持公网连接,网络类型选择经典网络即可。需要注意公网带宽的速度和相关网络费用消耗,无特殊情况不建议使用。

不同数据源类型对应的配置说明,请参见:数据源配置

e. 点击测试连通性

f. 若测试连通性成功,点击保存即可;若测试连通性失败,请根据自身情况参见:ECS上自建的数据库测试连通性失败RDS数据源测试连通性不通

2. 确认作为目标的Mysql数据库中有表

在mysql数据库中创建表odps_result ,建表语句如下:

  1. CREATE TABLE `ODPS_RESULT` (
  2. `education` varchar(255) NULL ,
  3. `num` int(10) NULL
  4. )

建表完成后,可通过desc odps_result;语句查看表详情。

3. 新建并配置同步节点

本节将新建一个同步节点write_result并进行配置,以把表result_table中的数据写入到自己的MySQL数据库中。具体操作如下:

a. 新建同步节点write_result,如下图所示:

 1 1

b. 选择来源;

选择ODPS数据源及源头表result_table,选择后点击下一步,如下图所示:

 1

c. 选择目标;

选择mysql数据源及目标表odps_result,选择后点击下一步,如下图所示:

1

d. 映射字段
点击下一步,选择字段的映射关系。需对字段映射关系进行配置,左侧“源头表字段”和右侧“目标表字段”为一一对应的关系 。di7

e. 通道控制点击下一步,配置作业速率上限和脏数据检查规则,如下图所示:di9

f. 预览保存
完成以上配置后,上下滚动鼠标可查看任务配置,如若无误,点击保存,如下图所示:di10

4. 提交数据同步任务

同步任务保存后,点击右边的提交,将同步任务提交到调度系统中,调度系统会按照配置属性在从第二天开始自动定时执行。

后续步骤

现在,您已经学习了如何创建同步任务把数据导出到不同类型的数据源中,您可以继续学习下一个教程。在该教程中您将学习如何设置同步任务的调度属性和依赖关系。详情请参见:设置任务的调度属性和依赖关系

本文导读目录
本文导读目录
以上内容是否对您有帮助?