使用 Hive/HadoopMR 来访问表格存储中的表

通过表格存储E-MapReduce 官方团队发布的依赖包,可以直接使用 Hive 及 HadoopMR 来访问表格存储中的数据并进行数据分析。

安装 JDK-7+

  1. 下载并安装 JDK-7+ 安装包。
    • Linux/MacOS 系统:使用系统自带的包管理器安装

    • Windows 系统:点此下载

  2. 按照以下示例进行安装检查。
    	$ java -version
    	java version "1.8.0_77"
    	Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    	Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
    

安装并启动 Hadoop 环境

  1. 下载 2.6.0 版本以上的 Hadoop 安装包。(点此下载
  2. 解压并安装,根据实际集群情况安装 Hadoop 服务。
  3. 按照如下示例启动 Hadoop 环境。
    $ bin/start-all.sh
    # 检查服务是否成功启动
    $ jps
    24017 NameNode
    24835 Jps
    24131 DataNode
    24438 ResourceManager
    5114 HMaster
    24287 SecondaryNameNode
    24527 NodeManager
    
  4. /etc/profile 中添加 Hadoop 路径,并执行 source /etc/profile 的命令使配置生效。
    export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
    export PATH=$PATH:$HADOOP_HOME/bin
    

下载及安装 Hive 环境

  1. 下载类型为 bin.tar.gz 的 Hive 安装包。(点此下载
  2. 按照如下示例解压安装包。
    $ mkdir /home/admin/hive-2.1.0
    $ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
    $ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/
    
  3. 按照如下示例初始化 schema。
    	# 进入指定的目录
    	$ cd /home/admin/hive-2.1.0/
    
    	# 初始化,如果是mysql则derby可以直接替换成mysql
    	# 如果执行出错可以删除rm -rf metastore_db/之后重新执行
    	$ ./bin/schematool -initSchema -dbType derby
    
  4. 按照如下示例启动 Hive 环境。
    $ ./bin/hive
    # 检查服务是否成功启动
    hive> show databases;
    OK
    default
    Time taken: 0.207 seconds, Fetched: 1 row(s)
    

下载表格存储的 Java SDK

  1. 在 Maven 库中下载 4.1.0 版本以上的 Java SDK 相关依赖包。(点此下载
    说明 该依赖包会随最新的 Java SDK 发布,请根据最新的 Java SDK 版本下载相关依赖包。
  2. 按照如下示例将 SDK 拷贝到 Hive 目录下。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/
    

下载阿里云 EMR SDK

点此下载 EMR SDK 依赖包。

说明 了解更多 EMR 信息请参考这里