本文介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS(Object Storage Service)。
操作步骤
开通服务
在DataWorks上创建表
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择工作空间。
在工作空间列表页面,单击目标工作空间对应的操作列。
在Data Studio页面,新建MaxCompute SQL节点。按照如下语句新建表
transs。CREATE TABLE transs (name STRING, id STRING, gender STRING);
为表
transs导入数据将以下示例数据保存至本地,建议存储为
CSV格式。qwe,145,F asd,256,F xzc,345,M rgth,234,F ert,456,F dfg,12,M tyj,4,M bfg,245,M nrtjeryj,15,F rwh,2344,M trh,387,F srjeyj,67,M saerh,567,M在左侧导航栏选择。
单击进入数据上传与下载。
在左侧导航栏单击上传图标
,单击数据上传。
在OSS控制台上创建表
登录对象存储OSS控制台。
在左侧导航栏单击Bucket 列表。
在Bucket 列表页面,单击创建 Bucket。
在本地创建
qwee.csv文件,并上传至OSS。详情请参见控制台上传文件。请确保qwee.csv文件中的字段名与表transs的字段名完全一致。
在DataWorks上新增MaxCompute数据源
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择工作空间。
在工作空间列表页面,单击目标工作空间名称。
在空间详情页面,单击左侧导航栏数据源。
在数据源页签,单击添加数据源,选择MaxCompute。
在添加MaxCompute数据源页面,填写基本信息。
详情请参见配置MaxCompute数据源。
在DataWorks上新增OSS数据源
详情请参见配置OSS数据源。
配置MaxCompute(ODPS)Reader和对象存储(OSS)Writer
登录DataWorks控制台,在左上角选择地域。
在左侧导航栏选择。
选择工作空间,单击进入Data Studio。
在Data Studio左侧,单击
,选择。数据来源选择OSS。
数据去向选择MaxCompute(ODPS)。
在节点配置页面,填写如下信息。
数据源-来源:选择新增的数据源OSS名称。
数据源-去向:选择新增的数据源MaxCompute名称。
数据来源-文本类型:选择CSV。
数据来源-文件去向:输入文件路径。
数据去向-表:已创建MaxCompute表。
运行资源:选择创建的独享资源组。
其他保持默认即可。
也可以单击配置区域上方的
图标,转换为脚本模式,通过脚本配置。示例如下:{ "order":{ "hops":[ { "from":"Reader", "to":"Writer" } ] }, "setting":{ "errorLimit":{ "record":"0" }, "speed":{ "concurrent":1, "dmu":1, "throttle":false } }, "steps":[ { "category":"reader", "name":"Reader", "parameter":{ "column":[ "name", "id", "gender" ], "datasource":"odps_first", "partition":[], "table":"Transs" }, "stepType":"odps" }, { "category":"writer", "name":"Writer", "parameter":{ "datasource":"Trans", "dateFormat":"yyyy-MM-dd HH:mm:ss", "encoding":"UTF-8", "fieldDelimiter":",", "fileFormat":"csv", "nullFormat":"null", "object":"qwee.csv", "writeMode":"truncate" }, "stepType":"oss" } ], "type":"job", "version":"2.0" }单击运行。
在OSS控制台中查看新增的表数据。详情请参见控制台下载文件。