本文介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS(Object Storage Service)。
操作步骤
开通服务
MaxCompute、DataWorks、OSS应在同一地域下。
在DataWorks上创建表
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择工作空间。
在工作空间列表页面,单击目标工作空间对应的操作列。
在Data Studio页面,新建MaxCompute SQL节点。按照如下语句新建表
transs。CREATE TABLE transs (name STRING, id STRING, gender STRING);
为表
transs导入数据下载示例CSV文件至本地demo_data.csv。
在左侧导航栏选择。
单击进入数据上传与下载。
在左侧导航栏单击上传图标
,单击数据上传。将上述本地数据上传至已创建好的MaxCompute表
transs中。
在OSS控制台上创建表
登录对象存储OSS控制台。
在左侧导航栏单击Bucket 列表。
在Bucket 列表页面,单击创建 Bucket。
在本地创建一个空
qwee.csv文件,并上传至OSS,用于接收MaxCompute数据。请确保qwee.csv文件中的字段名与表transs的字段名完全一致。上传操作详情请参见控制台上传文件。
在DataWorks上新增MaxCompute数据源
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择工作空间。
在工作空间列表页面,单击目标工作空间名称。
在空间详情页面,单击左侧导航栏数据源。
在数据源页签,单击添加数据源,选择MaxCompute。
在添加MaxCompute数据源页面,填写基本信息。
详情请参见配置MaxCompute数据源。
在DataWorks上新增OSS数据源
详情请参见配置OSS数据源。
配置MaxCompute(ODPS)Reader和对象存储(OSS)Writer
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择。
选择工作空间,单击进入Data Studio。
在Data Studio左侧,单击
,选择。数据来源选择MaxCompute(ODPS)。
数据去向选择OSS。
在节点配置页面,填写如下信息。
数据源-来源:选择新增的数据源MaxCompute名称。
数据源-去向:选择新增的数据源OSS名称。
数据来源-表:已创建MaxCompute表。
数据去向-文本类型:选择CSV。
数据去向-文件名:OSS上的文件名称,可以带有路径,比如a.txt, aaa/bbb/cc.csv。
运行资源:选择创建的独享资源组。
其他保持默认即可。
也可以单击配置区域上方的
图标,转换为脚本模式,通过脚本配置。示例如下:{ "order":{ "hops":[ { "from":"Reader", "to":"Writer" } ] }, "setting":{ "errorLimit":{ "record":"0" }, "speed":{ "concurrent":1, "dmu":1, "throttle":false } }, "steps":[ { "category":"reader", "name":"Reader", "parameter":{ "column":[ "name", "id", "gender" ], "datasource":"odps_first", "partition":[], "table":"Transs" }, "stepType":"odps" }, { "category":"writer", "name":"Writer", "parameter":{ "datasource":"Trans", "dateFormat":"yyyy-MM-dd HH:mm:ss", "encoding":"UTF-8", "fieldDelimiter":",", "fileFormat":"csv", "nullFormat":"null", "object":"qwee.csv", "writeMode":"truncate" }, "stepType":"oss" } ], "type":"job", "version":"2.0" }单击运行。
在OSS控制台中可以看到已上传的CSV文件中已存在通过MaxCompute迁移到OSS的数据。详情请参见控制台下载文件。