迁移服务(MMS)

更新时间:2025-04-10 08:45:08

MaxCompute数据迁移服务MMS(MaxCompute Migration Serverless)支持将数据源的数据迁移到MaxCompute,助力用户实现高效的数据迁移。

迁移原理

image

MaxCompute数据迁移服务MMS支持元数据和数据迁移:

  • 元数据迁移:通过元数据API(如Hive Metastore SDK、DataBricks SDK)从数据源获取元数据,生成MaxCompute DDL语句并在MaxCompute中执行以完成元数据迁移。

  • 数据迁移:通过Spark作业指定并迁移数据,相关作业可在MaxCompute上运行,实现从数据源读取数据并写入至MaxCompute。

术语和迁移流程简介

image
  • 数据源

    待迁移的对象,例如:Hive的一个或多个Database。不同的数据源有不同的数据层级,目前MMS会将不同数据源的数据层级映射为Database、SchemaTable三层,其中Schema作为Table的属性存在。数据源层级详情,如下表所示。

    数据源

    数据层级

    数据源

    数据层级

    Hive

    Database.Table

    MaxCompute

    Project.Schema.TableProject.Table

  • 迁移作业

    MMS迁移的对象可以是一个Database、多个Table或多个Partition。选定迁移对象并提交迁移作业后,MMS会生成多个迁移任务(迁移任务是实际的执行单位)。每个任务可对应一个非分区表或一个分区表的多个分区,任务执行过程包含元数据迁移、数据迁移和数据校验。

  • 数据校验

    MMS将数据迁移到MaxCompute后,会对数据进行校验。当前支持的校验方法比较简单,即通过在源端和目标端执行SELECT COUNT(*),统计对象(表、分区等)的行数进行比较,并将对比结果打印在任务日志中。

  • 本页导读 (1)
  • 迁移原理
  • 术语和迁移流程简介
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等