什么是湖仓迁移中心

什么是湖仓迁移中心?

一站式湖仓迁移中心 LHM(LakeHouse Migration),是阿里云自研的数据平台一站式跨云、跨平台迁移工具。支持多引擎湖仓数据平台集群探查、元数据增量发现与同步、大规模数据湖文件迁移、表格数据同步、SQL转换、调度Workflow转换、数据校验、双跑沙箱测试等能力,实时监控同步作业、源端目标端平台差异,辅助客户在线可视化完成湖仓技术栈整体迁移。

功能特性

集群盘点

支持全面精细化盘点湖仓集群的存储、计算、元数据、环境、版本、资源状况、存算引擎、元数据、任务Runtime实例信息等等,为迁移提供数据支撑。

元数据增量发现

提供数十种常见数据源连接。高效精准识别源端集群迁移对象变化,支持周期性全元素盘点差异比对与元数据增量变化实时监测,为后续迁移提供输入集。

湖仓数据迁移

服务于集群之间湖仓元数据、数据/存储文件迁移,支持基于源端增量发现的自驱动迁移流水线,迁移过程中提供迁移任务管控、迁移任务可观测、迁移报表等功能。

SQL自动化改造

支持10+异构湖仓计算引擎SQL代码到阿里云引擎的SQL代码的自动化迁移,支持转换OLAP、WareHouseSQL,同时会分析表血缘和上下文信息,生成优化策略,提升兼容性和执行性能。

任务调度转换

支持源端大数据平台到阿里云调度引擎(DataWorks调度为主)的整体迁移,包括多种开源、友商或自研调度引擎、工作流、多类型节点、资源等对象转换至目标端,支持灵活定义转换规则与投递策略。

双端数据校验

为双端对比提供全面、有梯度的数据校验,支持连接元数据动态渲染校验对象范围,支持任务定时调度(投递至目标集群),提供包括计数、指标、弱内容比对等多种校验方式,并有详尽的可视化报告支撑深度分析。

产品架构

image.png

LHM版本过往以线下为主,当前"数据校验"与"SQL转换"已在官网上线,可通过湖仓迁移中心控制台登录并使用,其他模块将陆续上线。

核心功能模块

核心功能模块

功能描述

SQL转换

支持10+异构湖仓计算引擎SQL代码到阿里云引擎的SQL代码的自动化迁移,支持转换OLAP、WareHouseSQL,同时会分析表血缘和上下文信息,生成优化策略,提升兼容性和执行性能。

核心功能:

  • SQL批量转换

  • SQL即席转换

  • 方言转换覆盖面查询

  • SQL验证沙箱

数据校验

数据生产与迁移过程中,需要检查集成源端与目标端、迁移两端集群数据的一致性,湖仓迁移中心提供数据校验服务,可服务于数据集成、数据迁移、任务改造正确性验证、业务双跑、割接前准备等广泛场景。

核心功能:

  • 双端校验

  • 校验报告