本最佳实践介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤。

场景描述

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云EMR集群之后,涉及到将数据仓库和Hive元数据的数据库迁移上云。目前主流Hive数据仓库迁移场景为1.x版本迁移到阿里云EMR(Hive 2.x版本),涉及到数据订正更新步骤。

解决的问题

  • Hive数据仓库的数据迁移方案。
  • Hive元数据库的迁移方案。
  • Hive跨版本迁移后的数据订正。

部署架构图

EMR部署架构图

选用的产品

  • 专有网络VPC

    专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP 地址范围、网段、路由表和网关等;此外,也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。

    更多关于专有网络VPC的介绍,参见专有网络VPC产品详情页

  • 云服务器ECS

    云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

    更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页

  • VPN网关

    VPN网关是一款基于Internet,通过加密通道将企业数据中心、企业办公网络、或internet终端和阿里云专有网络(VPC)安全可靠连接起来的服务。阿里云VPN网关在国家相关政策法规下提供服务,不提供访问Internet功能。

    更多VPN网关转换服务的介绍,参见VPN网关详情页

  • E-MapReduce

    阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。

    更多关于E-MapReduce的介绍,参见E-MapReduce产品详情页

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。

    更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

  • 云数据库RDS MySQL版

    MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。

    更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践