使用DataWorks(离线与实时)

MaxCompute支持通过DataWorks的数据集成功能将其他数据源的数据以离线或实时方式导入MaxCompute,也支持将部分类型的本地文件数据导入MaxCompute。本文为您介绍使用DataWorks将数据导入MaxCompute的主要操作流程与注意事项。

前提条件

  • 已开通DataWorks并绑定MaxCompute引擎,并在MaxCompute引擎中已创建好表用于存储后续同步至MaxCompute的数据。具体操作,请参见创建MaxCompute项目创建表

  • 已准备好待导入MaxCompute的数据。

场景1:导入本地CSV文件至MaxCompute

  • 同步能力说明

    当前支持将CSV格式的文件,基于本地文件阿里云对象存储OSS的方式导入MaxCompute。其中:

    • 本地文件,最大支持上传5 GB数据。

    • 阿里云对象存储OSS,仅支持上传与当前MaxCompute同地域Bucket中的数据。

  • 操作入口

    1. 进入数据开发页面。

      登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 单击左上角的image.png图标,选择全部产品 > 数据集成 > 上传与下载

    3. 上传与下载页面单击左侧导航栏的上传image.png图标),进入数据上传页面。

    4. 单击数据上传,根据界面指引上传目标数据。

  • 通用操作指导

    详细操作指导请参见数据上传

场景2:导入本地文件至MaxCompute

  • 同步能力说明

    当前支持将CSV自定义文本文件两种格式文件数据导入MaxCompute,其中自定义文本文件支持.txt.csv.log类型的文件。

  • 操作入口与通用操作指导

    登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发,可在以下入口导入本地文件至MaxCompute。

    • 数据开发页面的头部菜单栏中。上传数据
    • 数据开发页面业务流程下的表分组中。上传数据2
    • 标准模式下,在表管理页面中,对开发表右键上传数据。上传数据3

    上述详细操作指导请参见上传数据

    说明

    如果您创建表后,在导入数据时无法搜索到该表,您可以先在数据地图进行手工同步表操作后,再尝试搜索该表。手工同步操作,请参见我的数据

    • 单击左上角的image.png,选择全部产品 > 更多 > 上传与下载,然后单击左侧导航栏的上传image.png图标),进入数据上传页面,单击数据上传

      image.png
      说明

      DataWorks的上传与下载模块的数据上传功能,基于本地文件的上传,仅支持CSV格式和最大5 GB大小的文件。

      详细操作指导请参见数据上传

场景3:导入其他数据源数据至MaxCompute

  • 同步能力说明

    DataWorks数据集成支持将其他数据源的数据同步至MaxCompute,例如将RDS等数据库的数据同步至MaxCompute,针对不同的同步场景,数据同步原理与能力支持不一致。

    • DataWorks离线同步为您提供数据读取(Reader)写入插件(Writer)实现对数据源的读写操作(离线同步)。

    • DataWorks实时同步支持您将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。

    • DataWorks还为您提供多种数据源之间进行不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。

    对MaxCompute的数据同步能力支持如下表所示。

    离线同步

    实时同步

    同步解决方案

    单表读

    单表写

    单表增量读

    单表增量写

    整库增量读

    整库增量写

    整库离线读

    整库离线写

    单表/整库全增量实时读

    单表/整库全增量实时写

    image..pngimage..png

    -

    image..png

    -

    image..png

    -

    image..png

    -

    image..png
    说明

    离线导入场景中,每个离线同步节点仅支持将单张或多张表数据导入至MaxCompute的一张表中。

    更多DataWorks数据集成对MaxCompute数据同步能力详情请参见MaxCompute数据源

  • 操作入口与通用操作指导

  • 费用说明

    使用DataWorks数据集成进行数据同步时,需使用DataWorks的数据集成资源组与调度资源组,您可根据需要选择使用公共资源组或独享资源组,同时在数据传输过程中如果使用了公网传输,可能会涉及公网流量费用。各项可能费用的详情请参见:

最佳实践

数据库整库离线同步至MaxCompute

数据库增量数据离线同步至MaxCompute

数据库分库分表同步至MaxCompute

数据库全增量实时同步至MaxCompute