使用DataWorks(离线与实时)

MaxCompute支持通过DataWorks数据集成功能以离线或实时方式导入其他数据源的数据,也支持导入部分类型的本地文件数据。本文介绍如何使用DataWorks将数据导入MaxCompute的。

操作步骤

  1. 创建MaxCompute项目创建表。用于存储后续同步至MaxCompute的数据。

  2. 创建DataWorks工作空间绑定MaxCompute计算资源

  3. 导入数据

    将本地文件导入MaxCompute

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择数据集成 > 数据上传与下载

    3. 在左侧导航栏单击上传图标image,单击数据上传

    4. 根据界面指引上传目标数据。

      当前支持将CSVXLSXLSXJSON格式的文件,基于本地文件阿里云对象存储OSS的方式导入MaxCompute。其中:

      • 本地文件CSV文件最大支持上传的数据量为5 GB,其他文件最大支持上传的数据量为100 MB。

      • 阿里云对象存储OSS:仅支持上传与当前MaxCompute同地域Bucket中的数据。

    详细操作指导请参见数据上传

    旧版DataWorks工作空间,可以通过上传数据方式将本地CSV文件或自定义文本文件数据上传至MaxCompute表。

    其他数据源数据导入MaxCompute

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择数据开发与运维 > 数据开发

    3. 选择工作空间,单击进入Data Studio

    4. Data Studio左侧,单击image,选择新建节点 > 数据集成 > 离线同步实时同步

      • 离线同步节点:将数据去向配置为MaxCompute,数据来源配置为其他数据源。

      • 实时同步节点:将输出配置为MaxCompute,输入配置为其他数据源。

      详细操作指导请参见向导模式配置脚本模式配置DataStudio侧实时同步任务配置

    5. 回到DataWorks控制台

      在左侧导航栏选择数据集成 > 数据集成

    6. 在左侧导航栏选择同步任务,单击新建同步任务,在弹出的新建同步任务对话框配置数据源信息。

      详细操作指导请参见整库实时同步任务配置

数据集成同步能力说明

DataWorks数据集成支持将其他数据源的数据同步至MaxCompute,例如将RDS等数据库的数据同步至MaxCompute,针对不同的同步场景,数据同步原理与能力支持不同。

  • 离线同步提供数据读取(Reader)写入插件(Writer)实现对数据源的读写操作(离线同步)。

    • 离线导入场景中,每个离线同步节点仅支持将单张或多张表数据导入至MaxCompute的一张表中。

  • 实时同步支持将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。

  • 还提供多种数据源之间不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。

MaxCompute的数据同步能力支持如下表所示。

离线同步

实时同步

同步解决方案

单表读

单表写

单表增量读

单表增量写

整库增量读

整库增量写

整库离线读

整库离线写

单表/整库全增量实时读

单表/整库全增量实时写

image..png

image..png

-

image..png

-

image..png

-

image..png

-

image..png

更多DataWorks数据集成对MaxCompute数据同步能力详情请参见MaxCompute数据源

计费说明

使用DataWorks数据集成数据同步,需使用DataWorks的数据集成资源组与调度资源组,根据需要选择使用公共资源组或独享资源组,同时在数据传输过程中如果使用了公网传输,可能会涉及公网流量费用。

最佳实践

数据库整库离线同步至MaxCompute

数据库增量数据离线同步至MaxCompute

数据库分库分表同步至MaxCompute

数据库全增量实时同步至MaxCompute