MaxCompute Migration Assist(MMA)是一款MaxCompute数据迁移工具。本文为您介绍MMA2.0的迁移方案、技术原理以及功能改进点。

迁移解决方案

  • 方法一:Hive直接迁移到MaxCompute。**
  • 方法二:Hive先迁移至OSS,再迁移至MaxCompute。2

MMA2.0技术架构和原理

3上图中流程说明如下:
  1. 安装UDTF。
  2. 启动MMA-Server。MMA-Server向Task Scheduler提交任务,Task Scheduler调用Task Runner执行任务。
  3. 启动MMA-Client。MMA-Client向MMA-Server提交迁移作业。
  4. 通过ODPS SDK在MaxCompute上建表以及表分区。
  5. 数据校验后,通过Hive JDBC提交数据迁移作业。

MMA2.0重构改进

MMA2.0与MMA1.0相比,改进点如下:
  • C/S架构设计。
  • Python编程改Java。
  • 完整的断点续传能力。
  • 新增自动重试功能。
  • 基于JDBC提交Hive作业,替代Hive客户端。
  • 基于ODPS SDK提交MaxCompute作业,替代MaxCompute客户端。
  • UDTF持久化上传到HDFS。