Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。

背景信息

E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群的配套情况,请参见版本概述

Hive结构

名称

说明

HiveServer2

HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求,支持多客户端并发以及身份验证。

Hive MetaStore

元数据管理模块,此模块被其他引擎所依赖,用于存储Database和Table等元信息。例如,Spark和Presto均依赖此模块作为其元数据管理。

Hive Client

Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将SQL转换成MR作业、Tez作业和Spark作业,该模块在所有EMR节点上均有安装。

Hive语法

EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上保持与开源社区Hive语法100%的兼容性。

关于Apache Hive的更多介绍,请参见Apache Hive官网