MaxCompute数据迁移服务MMS(MaxCompute Migration Serverless)支持将数据源的数据迁移到MaxCompute,助力用户实现高效的数据迁移。
迁移原理
MaxCompute数据迁移服务MMS支持元数据和数据迁移:
元数据迁移:通过元数据API(如Hive Metastore SDK、DataBricks SDK)从数据源获取元数据,生成MaxCompute DDL语句并在MaxCompute中执行以完成元数据迁移。
数据迁移:通过Spark作业指定并迁移数据,相关作业可在MaxCompute上运行,实现从数据源读取数据并写入至MaxCompute。
术语和迁移流程简介
数据源
待迁移的对象,例如:Hive的一个或多个Database。不同的数据源有不同的数据层级,目前MMS会将不同数据源的数据层级映射为Database、Schema和Table三层,其中Schema作为Table的属性存在。数据源层级详情,如下表所示。
数据源
数据层级
数据源
数据层级
Hive
Database.Table
MaxCompute
Project.Schema.Table或Project.Table
迁移作业
MMS迁移的对象可以是一个Database、多个Table或多个Partition。选定迁移对象并提交迁移作业后,MMS会生成多个迁移任务(迁移任务是实际的执行单位)。每个任务可对应一个非分区表或一个分区表的多个分区,任务执行过程包含元数据迁移、数据迁移和数据校验。
数据校验
MMS将数据迁移到MaxCompute后,会对数据进行校验。当前支持的校验方法比较简单,即通过在源端和目标端执行
SELECT COUNT(*)
,统计对象(表、分区等)的行数进行比较,并将对比结果打印在任务日志中。
- 本页导读 (1)
- 迁移原理
- 术语和迁移流程简介