文档

混合云多种数据源集成大数据平台

更新时间:
一键部署

本文为您介绍使用DataWorks数据集成功能,实现多种数据源与大数据计算MaxCompute数据库进行数据同步。

背景信息

本实践适用于大数据计算MaxCompute、DataWorks基于企业版V3.12及以上版本。

本实践的使用场景:客户将不同的数据源统一集成到大数据平台进行数据分析,需要支持多的场景源进行数据集成,包含关系型数据库、列数据库、文本数据库、内存数据库、数据仓库、对象存储、文件系统等。

本实践涉及的主要组件介绍:

  • 大数据计算MaxCompute:是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。大数据计算MaxCompute为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。

  • 一站式开发平台DataWorks:为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务。一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,通过简单拖拽和开发,即可完成复杂的数据分析任务。

操作步骤

  1. 大数据平台准备。

    首先需要创建大数据计算MaxCompute的项目,配置计算资源,CPU、内存、存储空间,做大数据计算使用。

    1. 创建大数据计算MaxCompute计算项目。

      1. 登录Apsara Uni-manager运营控制台,在顶部菜单栏,选择产品 > 大数据 > 大数据计算MaxCompute

      2. 创建计算资源配额组。

        在左侧导航栏,单击配额组管理,在页面左侧,单击创建。然后在弹出的对话框中输入对应参数,单位为cu,1cu=1核 4GB内存,如下图所示。完成后单击确定1

      3. 创建任务云账号,一个云账号可以关联多个项目资源。

        在左侧导航栏,单击任务云账号,在页面左侧,单击新建云账号。然后在弹出的对话框中输入对应参数,如下图所示。完成后单击确认1

      4. 创建项目。

        在左侧导航栏,单击Project管理,在页面左侧,单击创建Max Compute集群。选择刚创建的配额组和任务云账号,如下图所示。1

    2. 创建DataWorks工作空间。

      1. 在Apsara Uni-manager运营控制台的顶部菜单栏,选择产品 > 大数据 > DataWorks

      2. 在左侧导航栏,选择全部产品 > 组织管理

      3. 在左侧导航栏,单击项目列表,在页面右上方单击创建工作空间

      4. 在弹出的对话框中输入对应参数,并关联对应的大数据计算MaxCompute项目,完成后单击确定1

    3. 创建工作空间业务流程。

      1. 工作空间列表页面,在页面右侧单击进入工作区

        在当前业务流程可以进行数据集成,数据开发等操作。·

      2. 新建业务流程,在页面左侧单击新建业务流程,输入业务名称及描述信息,单击新建1

  2. 多种数据源集成大数据平台。

    1. 关系型数据库MySQL。

      1. 通过DataWorks数据集成,在左侧导航栏,选择全部产品 > 数据汇聚 > 数据集成

      2. 在左侧导航栏,单击数据源管理

      3. 新建MySQL数据源。

        在页面右上方单击新建数据源,在弹出的对话框中选择MySQL。在弹出的对话框中输入数据源信息并测试连通性,单击完成1

      4. 将MySQL数据库数据集成到大数据平台ODPS数据库。

        在左侧导航栏,选择数据集成 > 新建 > 离线同步1

      5. 选择MySQL数据源。

        数据来源选择新建的MySQL数据源,选择表信息sale表。数据去向选择ODPS数据源,数据库为默认。1

      6. ODPS数据表可一键生成目标表,修改表名即可一键生成目标表sale。1

      7. 生成目标表之后可自动字段映射。1

      8. 运行任务可将MySQL数据导入大数据计算MaxCompute中。1

    2. 全文检索引擎Elasticsearch。

      1. 创建Elasticsearch数据源并测试连通性。

      2. 创建大数据计算MaxCompute数据库表,编辑表字段。1

      3. 创建数据同步,字段映射。1

      4. 运行数据同步,将Elasticsearch数据同步到大数据计算MaxCompute数据库。1

      5. 查询导入的数据。1

    3. 列数据库HBase。

      1. 创建HBase数据源并测试连通性。

      2. 配置数据同步,数据源选择HBase数据源。

      3. 配置脚本,输入column、table等信息,内容如下图所示。1

      4. 运行数据同步任务,将HBase数据导入大数据计算MaxCompute数据库。1

      5. 验证数据同步成功,查询导入数据。1

    4. 文档数据库MongoDB。

      1. 创建MongoDB数据源并测试连通性。

      2. 配置数据同步,数据源选择MongoDB数据源。1

      3. 配置脚本,输入column、collectionName等信息,内容如下图所示。1

      4. 运行数据同步任务,查询导入数据。1

    5. 内存数据库Redis。

      1. 创建Redis数据源并测试连通性。

      2. 配置数据库,创建数据表,插入数据。1

      3. 配置数据同步,数据来源选择ODPS数据源,数据去向选择Redis。1

      4. 配置脚本,在页面右侧单击点击转换为脚本,脚本内容如下图所示。1

      5. 运行数据同步任务,将ODPS数据导入Redis数据库。1

    6. 关系型数据库PostgreSQL。

      1. 创建PostgreSQL数据源并测试连通性。

      2. 配置数据同步,数据源选择PostgreSQL数据源,字段可自动映射。1

      3. 运行数据同步任务,将PostgreSQL数据导入大数据计算MaxCompute数据库。1

      4. 验证数据同步成功,查询导入数据。1

    7. 数据库管理系统MariaDB。

      1. 创建MariaDB数据源并测试连通性。

      2. 配置数据同步,数据源选择创建的MariaDB数据源,字段自动映射。1

      3. 运行数据同步任务,将MariaDB数据导入大数据计算MaxCompute数据库。

      4. 验证数据同步成功,查询导入数据。

    8. 对象存储OSS。

      1. 在Apsara Uni-manager运营控制台的顶部菜单栏,选择产品 > 存储 > 对象存储OSS

      2. OSS对象存储准备数据。1

      3. 创建OSS数据源并测试连通性。1

      4. 配置数据同步,数据源选择OSS数据源,进行数据同步,导入大数据计算MaxCompute数据库。1

      5. 验证数据同步成功,查询导入数据。1

    9. 文件传输FTP。

      1. 创建FTP数据源并测试连通性。

      2. 配置数据同步,数据源选择FTP数据源。1

      3. 运行数据同步任务,将FTP数据导入大数据计算MaxCompute数据库。1

      4. 验证数据同步成功,查询导入数据。1

    10. 文件传输SFTP。

      1. 创建SFTP数据源并测试连通性。

      2. 配置数据同步,数据源选择SFTP数据源。1

      3. 运行数据同步任务,将SFTP数据导入大数据计算MaxCompute数据库。1

      4. 验证数据同步成功,查询导入数据。1

  • 本页导读
文档反馈