通过MMS迁移数据至MaxCompute_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

MaxCompute数据迁移服务MMS（MaxCompute Migration Serverless）支持将数据源的数据迁移到MaxCompute，助力用户实现高效的数据迁移。

迁移原理

MaxCompute数据迁移服务MMS支持元数据和数据迁移：

元数据迁移：通过元数据API（如Hive Metastore SDK、DataBricks SDK）从数据源获取元数据，生成MaxCompute DDL语句并在MaxCompute中执行以完成元数据迁移。
数据迁移：通过Spark作业指定并迁移数据，相关作业可在MaxCompute上运行，实现从数据源读取数据并写入至MaxCompute。

数据源
待迁移的对象，例如：Hive的一个或多个Database。不同的数据源有不同的数据层级，目前MMS会将不同数据源的数据层级映射为Database、Schema和Table三层，其中Schema作为Table的属性存在。数据源层级详情，如下表所示。
数据源
数据层级
数据源
数据层级
Hive
Database.Table
MaxCompute
Project.Schema.Table或Project.Table
迁移作业
MMS迁移的对象可以是一个Database、多个Table或多个Partition。选定迁移对象并提交迁移作业后，MMS会生成多个迁移任务（迁移任务是实际的执行单位）。每个任务可对应一个非分区表或一个分区表的多个分区，任务执行过程包含元数据迁移、数据迁移和数据校验。
数据校验
MMS将数据迁移到MaxCompute后，会对数据进行校验。当前支持的校验方法比较简单，即通过在源端和目标端执行SELECT COUNT(*)，统计对象（表、分区等）的行数进行比较，并将对比结果打印在任务日志中。

数据源	数据层级
Hive	Database.Table
MaxCompute	Project.Schema.Table或Project.Table