MaxCompute支持通过DataWorks的数据集成功能以离线或实时方式导入其他数据源的数据,也支持导入部分类型的本地文件数据。本文介绍如何使用DataWorks将数据导入MaxCompute的。
操作步骤
已创建MaxCompute项目和创建表。用于存储后续同步至MaxCompute的数据。
导入数据
将本地文件导入MaxCompute
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择。
在左侧导航栏单击上传图标
,单击数据上传。根据界面指引上传目标数据。
当前支持将
CSV、XLS、XLSX、JSON格式的文件,基于本地文件或阿里云对象存储OSS的方式导入MaxCompute。其中:本地文件:
CSV文件最大支持上传的数据量为5 GB,其他文件最大支持上传的数据量为100 MB。阿里云对象存储OSS:仅支持上传与当前MaxCompute同地域Bucket中的数据。
详细操作指导请参见数据上传。
旧版DataWorks工作空间,可以通过上传数据方式将本地CSV文件或自定义文本文件数据上传至MaxCompute表。
将其他数据源数据导入MaxCompute
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择。
选择工作空间,单击进入Data Studio。
在Data Studio左侧,单击
,选择或实时同步。离线同步节点:将数据去向配置为MaxCompute,数据来源配置为其他数据源。
实时同步节点:将输出配置为MaxCompute,输入配置为其他数据源。
详细操作指导请参见向导模式配置、脚本模式配置、DataStudio侧实时同步任务配置。
回到DataWorks控制台。
在左侧导航栏选择。
在左侧导航栏选择同步任务,单击新建同步任务,在弹出的新建同步任务对话框配置数据源信息。
详细操作指导请参见整库实时同步任务配置。
数据集成同步能力说明
DataWorks数据集成支持将其他数据源的数据同步至MaxCompute,例如将RDS等数据库的数据同步至MaxCompute,针对不同的同步场景,数据同步原理与能力支持不同。
离线同步提供数据读取(Reader)和写入插件(Writer)实现对数据源的读写操作(离线同步)。
离线导入场景中,每个离线同步节点仅支持将单张或多张表数据导入至MaxCompute的一张表中。
实时同步支持将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。
还提供多种数据源之间不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。
对MaxCompute的数据同步能力支持如下表所示。
离线同步 | 实时同步 | 同步解决方案 | |||||||
单表读 | 单表写 | 单表增量读 | 单表增量写 | 整库增量读 | 整库增量写 | 整库离线读 | 整库离线写 | 单表/整库全增量实时读 | 单表/整库全增量实时写 |
|
| - |
| - |
| - |
| - |
|
更多DataWorks数据集成对MaxCompute数据同步能力详情请参见MaxCompute数据源。
计费说明
使用DataWorks数据集成数据同步,需使用DataWorks的数据集成资源组与调度资源组,根据需要选择使用公共资源组或独享资源组,同时在数据传输过程中如果使用了公网传输,可能会涉及公网流量费用。
数据集成资源组的计费详情请参见独享数据集成资源组计费说明:包年包月、公共数据集成(调试)资源组:按量计费。
公网流量费用请参见公网流量计费。
调度资源组的计费详情请参见独享调度资源组计费说明:包年包月、公共调度资源组计费。