文档

数据集成概述

更新时间:

数据集成是基于Dataphin构建的简单高效的数据同步平台,致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。

背景信息

面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。

功能概述

说明

如果您是在2020年4月份之后购买的Dataphin,则数据同步能力已升级为数据集成。

Dataphin升级了数据集成的能力,旨在为您构建简单高效、安全可靠的数据同步平台:

  • 支持通过整库迁移(快速生成批量同步任务)和一键生成目标表(同步到MaxCompute的数据无需手动建表)的方式,提高数据集成的效率,详情请参见通过整库迁移配置集成任务

  • 支持流程转换组件,实现数据源的数据预处理(例如清洗、转换、字段脱敏、计算、合并、分发、过滤等)能力,详情请参见通过单条管道创建集成任务

  • 支持Dev-Prod和Basic的开发模式,您可以根据业务场景进行灵活选择开发模式。

  • 支持将Dataphin中创建的逻辑表快速地同步到目标库。

  • 支持用户自定义系统不支持的组件,以满足不同业务场景数据同步的需求。RDBMS数据库组件通过JDBC链接,非RDBMS数据库组件需要自行上传JAR包。

数据集成支持多种类型组件,通过简单的拖拽、配置并组装组件的方式,生成离线单条管道。数据集成支持快速生成批量同步任务。整库迁移来源端支持MySQL、SQL Server、Oracle,目标端支持 MaxCompute。同时,数据集成支持用户自定义系统不支持的组件类型,以满足数据同步的需求。

数据集成入口

快捷入口(推荐)

在Dataphin首页,您也可以单击Dataphin产品使用路径的数据引入,快速进入数据集成。

image

普通入口

  1. 在Dataphin首页,单击顶部菜单栏的研发

  2. 在数据开发页面,单击顶部菜单栏的集成,进入数据集成页面。

    image

连通数据源与Dataphin间的网络

进行数据同步时,需要连通数据源与Dataphin项目空间间的网络。如何连通数据源与Dataphin间的网络,请参见网络连通解决方案

适用场景说明

场景

描述

操作指导

通过管道脚本构建同步任务

基于已有的管道脚本开发管道任务,实现数据同步。

  1. 下载已开发的管道脚本,详情请参见通过单条管道创建集成任务

  2. 上传创建管道开发脚本,详情请参见通过单条管道创建集成任务

  3. 基于管道脚本开发管道任务进行调度配置,详情请参见离线集成任务属性配置概述

  4. 提交或发布管道任务至生产环境,详情请参见管理发布任务

    说明

    如果数据开发模式为Basic,则无需发布管道任务。

  5. 运维调度,详情请参见运维中心概述

通过离线单条管道构建同步任务

离线的数据管道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据输入组件、数据输出组件及流程和转换组件,并基于此框架设计一套简化版的中间数据传输格式,从而实现数据源之间数据传输。

  1. 数据源的配置,详情请参见Dataphin支持的数据源

  2. 离线单条管道脚本的组装及配置,详情请参见通过单条管道创建集成任务。配置批量同步任务,详情请参见通过整库迁移配置集成任务

  3. 提交或发布管道任务至生产环境,详情请参见管理发布任务

    说明

    如果数据开发模式为Basic,则无需发布管道任务。

  4. 运维调度,详情请参见运维中心概述

通过离线整库迁移构建同步任务

整库迁移是为了提升用户效率、降低用户使用成本的一种快捷工具,它可以快速把MySQL、Oracle、SQL Server数据库内所有表一并上传至MaxCompute,极大减少您初始化上云的配置、迁移成本。

  1. 数据源的配置,详情请参见Dataphin支持的数据源

  2. 离线单条管道脚本的组装及配置,详情请参见通过单条管道创建集成任务。配置批量同步任务,详情请参见通过整库迁移配置集成任务

  3. 提交或发布管道任务至生产环境,详情请参见管理发布任务

    说明

    如果数据开发模式为Basic,则无需发布管道任务。

  4. 运维调度,详情请参见运维中心概述

通过自定义组件构建同步任务

数据集成支持用户自定义系统不支持的组件,以满足不同业务场景数据同步的需求。

  1. 新建自定义组件,详情请参见新建离线自定义源类型

  2. 基于自定义的组件新建数据源,详情请参见开发自定义组件示例

  3. 新建离线单条管道,详情请参见通过单条管道创建集成任务

  4. 提交或发布管道任务至生产环境,详情请参见管理发布任务

    说明

    如果数据开发模式为Basic,则无需发布管道任务。

  5. 运维管理管道任务,详情请参见运维中心概述

  • 本页导读 (0)
文档反馈