客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

方案优势

  • 易用性

    您可以简单选择所需ECS机型(CPU、内存)与磁盘,并选择所需的软件,进行自动化部署。

  • 经济性

    您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动态地增加节点。

  • 深度整合

    E-MapReduce与阿里云其它产品(例如,OSS、MNS、RDS 和 MaxCompute 等)进行了深度整合,支持以这些产品作为Hadoop/Spark计算引擎的输入源或者输出目的地。

  • 安全

    E-MapReduce整合了阿里云RAM资源权限管理系统,通过主子账号对服务权限进行隔离。

  • 可靠性

    使用阿里云数据库RDS保存Hive的元数据信息,可以提升数据可靠性和服务可用性,免除客户运维自建MySQL数据库的工作。

架构图

hive_emr

方案详情

请参见阿里云自建Hive数据仓库跨版本迁移到阿里云EMR