MaxCompute数据迁移至OSS

本文介绍如何使用DataWorks的数据同步功能将MaxCompute数据迁移至对象存储OSS(Object Storage Service)。

操作步骤

  1. 开通服务

    1. 开通MaxCompute

    2. 开通DataWorks

  2. DataWorks上创建表

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择工作空间

    3. 工作空间列表页面,单击目标工作空间对应的操作快速进入 > Data Studio

    4. Data Studio页面,新建MaxCompute SQL节点。按照如下语句新建表transs

      CREATE TABLE transs
      (name    STRING,
      id    STRING,
      gender    STRING);
  3. 为表transs导入数据

    1. 将以下示例数据保存至本地,建议存储为CSV格式。

      qwe,145,F
      asd,256,F
      xzc,345,M
      rgth,234,F
      ert,456,F
      dfg,12,M
      tyj,4,M
      bfg,245,M
      nrtjeryj,15,F
      rwh,2344,M
      trh,387,F
      srjeyj,67,M
      saerh,567,M
    2. 在左侧导航栏选择数据集成 > 数据上传与下载

    3. 单击进入数据上传与下载

    4. 在左侧导航栏单击上传图标image,单击数据上传

  4. OSS控制台上创建表

    1. 登录对象存储OSS控制台

    2. 在左侧导航栏单击Bucket 列表

    3. Bucket 列表页面,单击创建 Bucket

    4. 在本地创建qwee.csv文件,并上传至OSS。详情请参见控制台上传文件。请确保qwee.csv文件中的字段名与表transs的字段名完全一致。

  5. DataWorks上新增MaxCompute数据源

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择工作空间

    3. 工作空间列表页面,单击目标工作空间名称。

    4. 空间详情页面,单击左侧导航栏数据源

    5. 数据源页签,单击添加数据源,选择MaxCompute

    6. 添加MaxCompute数据源页面,填写基本信息

      详情请参见配置MaxCompute数据源

  6. DataWorks上新增OSS数据源

    详情请参见配置OSS数据源

  7. 配置MaxCompute(ODPS)Reader和对象存储(OSS)Writer

    1. 登录DataWorks控制台,在左上角选择地域。

    2. 在左侧导航栏选择数据开发与运维 > 数据开发

    3. 选择工作空间,单击进入Data Studio

    4. Data Studio左侧,单击image,选择新建节点 > 数据集成 > 离线同步

      • 数据来源选择OSS

      • 数据去向选择MaxCompute(ODPS)

    5. 在节点配置页面,填写如下信息。

      • 数据源-来源:选择新增的数据源OSS名称。

      • 数据源-去向:选择新增的数据源MaxCompute名称。

      • 数据来源-文本类型:选择CSV。

      • 数据来源-文件去向:输入文件路径。

      • 数据去向-:已创建MaxCompute表。

      • 运行资源:选择创建的独享资源组。

      • 其他保持默认即可。

      也可以单击配置区域上方的切换代码图标,转换为脚本模式,通过脚本配置。示例如下:

      {
          "order":{
              "hops":[
                  {
                      "from":"Reader",
                      "to":"Writer"
                  }
              ]
          },
          "setting":{
              "errorLimit":{
                  "record":"0"
              },
              "speed":{
                  "concurrent":1,
                  "dmu":1,
                  "throttle":false
              }
          },
          "steps":[
              {
                  "category":"reader",
                  "name":"Reader",
                  "parameter":{
                      "column":[
                          "name",
                          "id",
                          "gender"
                      ],
                      "datasource":"odps_first",
                      "partition":[],
                      "table":"Transs"
                  },
                  "stepType":"odps"
              },
              {
                  "category":"writer",
                  "name":"Writer",
                  "parameter":{
                      "datasource":"Trans",
                      "dateFormat":"yyyy-MM-dd HH:mm:ss",
                      "encoding":"UTF-8",
                      "fieldDelimiter":",",
                      "fileFormat":"csv",
                      "nullFormat":"null",
                      "object":"qwee.csv",
                      "writeMode":"truncate"
                  },
                  "stepType":"oss"
              }
          ],
          "type":"job",
          "version":"2.0"
      }                           
    6. 单击运行

  8. OSS控制台中查看新增的表数据。详情请参见控制台下载文件