场景概述
本案例通过Hive udtf 的方式将Hive数据表迁移到MaxCompute,包括将Hive表结构迁移到MaxCompute、存量数据迁移到MaxCompute,迁移过程中需要开启增量,定期发现新的Hive数据,并及时同步到MaxCompute。
通过本文,您可以:
掌握通过LHM将Hive数据迁移到MaxCompute的基础功能。
了解LHM数据迁移功能的常见配置方式。
使用的阿里云产品
操作步骤
数据迁移任务配置及执行
新建数据源
进入创建数据源页面
a. 访问数据源管理页面
b. 选择源端与目标端tab页,分别创建Hive(源端)与MaxCompute(目标端)数据源
点击连通测试按钮,测试通过后完成数据源模块的创建
新建迁移任务
进入新建迁移任务页面
访问数据迁移页面
选择Hive->MaxCompute Tab页
点击新建迁移任务按钮
在新建迁移任务页面,完成迁移任务的相关配置
基础信息 | 配置项 | 描述 | UI展示 |
迁移任务名称 | |||
组件映射 | 选择待迁移的数据源信息 | ||
数据库选择 | 选择完组件映射后,需要选择组件数据源对应的数据库(这里数据库就是待迁移的数据库) | ||
描述 | 任务描述信息 | ||
迁移任务设置 | 迁移类型 |
| |
迁移方式 |
| ||
增量控制开关 | 选择增量数据同步迁移类型时,会有增量控制开关功能。 开启时,可控制存量实例未跑完时,不触发增量实例 | ||
迁移数据对象选择 |
| ||
任务时间设置 | 选择增量数据同步迁移类型时,需要设置后续数据迁移执行时间 | ||
重试时长和频率 | 暂未开放 | ||
同步并发数 | 暂未开放 | ||
全局参数配置 | 该配置项主要是LHM系统的全局参数 ●hive.task.partition.max.num=50 # 单个任务处理的最多分区数量 ●hive.task.partition.max.size=5 # 单个任务处理的最大数量(单位G) | ||
自定义参数配置 | 该配置项目主要是设置hadoop环境的执行参数 |
执行迁移
任务创建完成后,点击执行迁移按钮,迁移任务开始执行
任务执行结果查看
点击任务详情按钮,查看不同阶段迁移执行情况
进入任务详情页面后,点击查看按钮,可以查看迁移日志
针对因网络等原因偶然出错的任务,可以点击重跑按钮,可以对失败的任务进行重新迁移操作(成功状态不允许重跑)
查看任务进度信息