数据迁移功能快速入门

场景概述

本案例通过Hive udtf 的方式将Hive数据表迁移到MaxCompute,包括将Hive表结构迁移到MaxCompute、存量数据迁移到MaxCompute,迁移过程中需要开启增量,定期发现新的Hive数据,并及时同步到MaxCompute。

通过本文,您可以:

  • 掌握通过LHMHive数据迁移到MaxCompute的基础功能。

  • 了解LHM数据迁移功能的常见配置方式。

使用的阿里云产品

操作步骤

数据迁移任务配置及执行

新建数据源

  1. 进入创建数据源页面

    a. 访问数据源管理页面

    b. 选择源端与目标端tab页,分别创建Hive(源端)与MaxCompute(目标端)数据源

image.png

  1. 点击连通测试按钮,测试通过后完成数据源模块的创建

image.png

新建迁移任务

  1. 进入新建迁移任务页面

    1. 访问数据迁移页面

    2. 选择Hive->MaxCompute Tab

    3. 点击新建迁移任务按钮

image.png

  1. 在新建迁移任务页面,完成迁移任务的相关配置

基础信息

配置项

描述

UI展示

迁移任务名称

组件映射

选择待迁移的数据源信息

image.png

数据库选择

选择完组件映射后,需要选择组件数据源对应的数据库(这里数据库就是待迁移的数据库)

image.png

描述

任务描述信息

迁移任务设置

迁移类型

  • 仅迁移结构

  • 结构迁移+存量数据迁移

  • 结构迁移+存量数据迁移+增量数据同步

迁移方式

  • Tunnel模式

  • Hadoop inside湖仓一体

  • OSS中转方案

增量控制开关

选择增量数据同步迁移类型时,会有增量控制开关功能。

开启时,可控制存量实例未跑完时,不触发增量实例

迁移数据对象选择

  • 白名单模式

  • 黑名单模式

任务时间设置

选择增量数据同步迁移类型时,需要设置后续数据迁移执行时间

image.png

重试时长和频率

暂未开放

image.png

同步并发数

暂未开放

全局参数配置

该配置项主要是LHM系统的全局参数

●hive.task.partition.max.num=50 # 单个任务处理的最多分区数量

●hive.task.partition.max.size=5 # 单个任务处理的最大数量(单位G)

自定义参数配置

该配置项目主要是设置hadoop环境的执行参数

执行迁移

任务创建完成后,点击执行迁移按钮,迁移任务开始执行

image.png

任务执行结果查看

  1. 点击任务详情按钮,查看不同阶段迁移执行情况

image.png

  1. 进入任务详情页面后,点击查看按钮,可以查看迁移日志

image.png

image.png

image.png

  1. 针对因网络等原因偶然出错的任务,可以点击重跑按钮,可以对失败的任务进行重新迁移操作(成功状态不允许重跑)

image.png

  1. 查看任务进度信息

image.png