MaxCompute数据迁移至OSS

本文为您介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS(Object Storage Service)。

前提条件

操作步骤

  1. 在DataWorks上创建表。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击工作空间列表

    3. 单击相应工作空间操作列的快速进入 > 数据开发

    4. 右键单击已创建的业务流程,选择新建表 > MaxCompute >

    5. 新建表页面,选择引擎类型并输入表名

    6. 在表的编辑页面,单击DDL

    7. DDL对话框,输入如下建表语句,单击生成表结构

      create table Transs
      (name    string,
      id    string,
      gender    string);
    8. 单击提交到生产环境

  2. 为表Transs导入数据。

    1. 数据开发页面,单击导入图标。

    2. 数据导入向导对话框,至少输入3个字母来搜索需要导入数据的表,单击下一步

    3. 选择数据导入方式上传本地数据,单击选择文件后的浏览...。选择本地数据文件,配置导入信息。

      示例数据如下。

      qwe,145,F
      asd,256,F
      xzc,345,M
      rgth,234,F
      ert,456,F
      dfg,12,M
      tyj,4,M
      bfg,245,M
      nrtjeryj,15,F
      rwh,2344,M
      trh,387,F
      srjeyj,67,M
      saerh,567,M
    4. 单击下一步

    5. 选择目标表字段与源字段的匹配方式。

    6. 单击导入数据

  3. 在OSS控制台上创建表。

    1. 登录OSS控制台,创建Bucket。详情请参见控制台创建存储空间

    2. 上传文件qwee.csv至OSS。详情请参见控制台上传文件

      说明

      请确保qwee.csv文件中的字段与表Transs的字段完全一致。

  4. 在DataWorks上新增数据源。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击工作空间列表

    3. 单击相应工作空间操作列的快速进入 > 数据集成

    4. 在左侧导航栏上,单击数据源,进入数据源管理页面。

    5. 单击新增数据源,并选择数据类型为MaxCompute

    6. 新增MaxCompute数据源对话框中配置参数,并单击完成。详情请参见配置MaxCompute数据源

    7. 新增OSS数据源,详情请参见配置OSS数据源

  5. 配置MaxCompute(ODPS)Reader和对象存储(OSS)Writer。

    1. 进入数据开发页面,右键单击指定业务流程,选择新建节点 > 数据集成 > 离线同步

    2. 新建节点对话框中,输入节点名称,并单击确认

    3. 在顶部菜单栏上,单击转化脚本图标。

    4. 在脚本模式下,单击顶部菜单栏上的**图标。

    5. 导入模板对话框中选择来源类型数据源目标类型数据源,并单击确定

    6. 修改JSON代码后,单击运行图标。

      示例代码如下。

      {
          "order":{
              "hops":[
                  {
                      "from":"Reader",
                      "to":"Writer"
                  }
              ]
          },
          "setting":{
              "errorLimit":{
                  "record":"0"
              },
              "speed":{
                  "concurrent":1,
                  "dmu":1,
                  "throttle":false
              }
          },
          "steps":[
              {
                  "category":"reader",
                  "name":"Reader",
                  "parameter":{
                      "column":[
                          "name",
                          "id",
                          "gender"
                      ],
                      "datasource":"odps_first",
                      "partition":[],
                      "table":"Transs"
                  },
                  "stepType":"odps"
              },
              {
                  "category":"writer",
                  "name":"Writer",
                  "parameter":{
                      "datasource":"Trans",
                      "dateFormat":"yyyy-MM-dd HH:mm:ss",
                      "encoding":"UTF-8",
                      "fieldDelimiter":",",
                      "fileFormat":"csv",
                      "nullFormat":"null",
                      "object":"qweee.csv",
                      "writeMode":"truncate"
                  },
                  "stepType":"oss"
              }
          ],
          "type":"job",
          "version":"2.0"
      }                           
  6. 在OSS控制台中查看新增的表数据。详情请参见控制台下载文件