MaxCompute支持通过DataWorks的数据集成功能将其他数据源的数据以离线或实时方式导入MaxCompute,也支持将部分类型的本地文件数据导入MaxCompute。本文为您介绍使用DataWorks将数据导入MaxCompute的主要操作流程与注意事项。
前提条件
已开通DataWorks并绑定MaxCompute引擎,并在MaxCompute引擎中已创建好表用于存储后续同步至MaxCompute的数据。具体操作,请参见创建MaxCompute项目和创建表。
已准备好待导入MaxCompute的数据。
场景1:导入本地CSV文件至MaxCompute
同步能力说明
当前支持将CSV格式的文件,基于本地文件或阿里云对象存储OSS的方式导入MaxCompute。其中:
本地文件,最大支持上传5 GB数据。
阿里云对象存储OSS,仅支持上传与当前MaxCompute同地域Bucket中的数据。
操作入口
进入数据开发页面。
登录DataWorks控制台,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发。
单击左上角的图标,选择
。在上传与下载页面单击左侧导航栏的上传(图标),进入数据上传页面。
单击数据上传,根据界面指引上传目标数据。
通用操作指导
详细操作指导请参见数据上传。
场景2:导入本地文件至MaxCompute
同步能力说明
当前支持将CSV和自定义文本文件两种格式文件数据导入MaxCompute,其中自定义文本文件支持.txt、.csv和.log类型的文件。
操作入口与通用操作指导
登录DataWorks控制台,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入数据开发,可在以下入口导入本地文件至MaxCompute。
- 在数据开发页面的头部菜单栏中。
- 在数据开发页面业务流程下的表分组中。
- 标准模式下,在表管理页面中,对开发表右键上传数据。
上述详细操作指导请参见上传数据。
说明如果您创建表后,在导入数据时无法搜索到该表,您可以先在数据地图进行手工同步表操作后,再尝试搜索该表。手工同步操作,请参见我的数据。
单击左上角的,选择
,然后单击左侧导航栏的上传(图标),进入数据上传页面,单击数据上传。说明DataWorks的上传与下载模块的数据上传功能,基于本地文件的上传,仅支持CSV格式和最大5 GB大小的文件。
详细操作指导请参见数据上传。
场景3:导入其他数据源数据至MaxCompute
同步能力说明
DataWorks数据集成支持将其他数据源的数据同步至MaxCompute,例如将RDS等数据库的数据同步至MaxCompute,针对不同的同步场景,数据同步原理与能力支持不一致。
DataWorks离线同步为您提供数据读取(Reader)和写入插件(Writer)实现对数据源的读写操作(离线同步)。
DataWorks实时同步支持您将多种输入及输出数据源搭配组成同步链路进行单表或整库数据的实时增量同步。
DataWorks还为您提供多种数据源之间进行不同数据同步场景(整库离线同步、全增量实时同步)的同步解决方案。
对MaxCompute的数据同步能力支持如下表所示。
离线同步
实时同步
同步解决方案
单表读
单表写
单表增量读
单表增量写
整库增量读
整库增量写
整库离线读
整库离线写
单表/整库全增量实时读
单表/整库全增量实时写
-
-
-
-
说明离线导入场景中,每个离线同步节点仅支持将单张或多张表数据导入至MaxCompute的一张表中。
更多DataWorks数据集成对MaxCompute数据同步能力详情请参见MaxCompute数据源。
操作入口与通用操作指导
DataStudio侧操作
登录MaxCompute控制台,单击控制台左侧导航的数据开发进入数据开发(DataStudio)页面,可在DataStudio中新建离线同步节点或实时同步节点,开始配置离线或实时同步任务,将其他数据源数据同步至MaxCompute。
离线同步节点中:将数据去向配置为MaxCompute,数据来源配置为其他数据源。
实时同步节点中:将输出配置为MaxCompute,输入配置为其他数据源。
详细操作指导请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务、DataStudio侧实时同步任务配置。
数据集成侧操作
登录DataWorks控制台后进入工作空间列表页面,在目标工作空间操作列单击快速进入 > 数据集成,在数据集成页面创建数据同步任务,将其他数据源的数据同步至MaxCompute。
详细操作指导请参见数据集成侧同步任务配置。
费用说明
使用DataWorks数据集成进行数据同步时,需使用DataWorks的数据集成资源组与调度资源组,您可根据需要选择使用公共资源组或独享资源组,同时在数据传输过程中如果使用了公网传输,可能会涉及公网流量费用。各项可能费用的详情请参见:
数据集成资源组的计费详情请参见独享数据集成资源组计费说明:包年包月、公共数据集成(调试)资源组:按量计费。
公网流量费用请参见公网流量计费说明。
调度资源组的计费详情请参见独享调度资源组计费说明:包年包月、公共调度资源组计费说明:按量付费。