环境准备

使用Hive/HadoopMR来访问表格存储中的表前,您需要完成JDK、Hadoop环境、Hive环境、表格存储Java SDK和阿里云EMR SDK的安装。

使用Hive/HadoopMR来访问表格存储中的表

通过表格存储E-MapReduce官方团队发布的依赖包,可以直接使用HiveHadoopMR来访问表格存储中的数据并进行数据分析。

安装JDK-7+

  1. 下载并安装JDK-7+安装包。

    • Linux/macOS系统:使用系统自带的包管理器安装。

    • Windows系统:具体下载路径请参见JDK安装包

  2. 按照以下示例进行安装检查。

    $ java -version
    java version "1.8.0_77"
    Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)            

安装并启动Hadoop环境

  1. 下载2.6.0版本以上的Hadoop安装包,具体下载路径请参见Hadoop安装包

  2. 解压并安装,根据实际集群情况安装Hadoop服务。

  3. 按照如下示例启动Hadoop环境。

    $ bin/start-all.sh
    # 检查服务是否成功启动。
    $ jps
    24017 NameNode
    24835 Jps
    24131 DataNode
    24438 ResourceManager
    5114 HMaster
    24287 SecondaryNameNode
    24527 NodeManager
                            
  4. 在/etc/profile中添加Hadoop路径,并执行source /etc/profile命令使配置生效。

    export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
    export PATH=$PATH:$HADOOP_HOME/bin                  

下载及安装Hive环境

  1. 下载类型为bin.tar.gzHive安装包,具体下载路径请参见Hive安装包

  2. 按照如下示例解压安装包。

    mkdir -p /home/admin/hive-2.1.0
    tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
    mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/              
  3. 按照如下示例初始化schema。

    # 进入指定的目录。
    cd /home/admin/hive-2.1.0/apache-hive-2.1.0-bin
    # 初始化,如果是mysqlderby可以直接替换成mysql。
    # 如果执行出错可以删除rm -rf metastore_db/之后重新执行。
    ./bin/schematool -initSchema -dbType derby                  
  4. 按照如下示例启动Hive环境。

    ./bin/hive
    # 检查服务是否成功启动。
    hive> show databases;
    OK
    default
    Time taken: 0.207 seconds, Fetched: 1 row(s)                

下载表格存储的Java SDK

  1. Maven库中下载4.1.0版本以上的Java SDK相关依赖包,具体下载路径请参见Java SDK历史迭代版本

    Java SDK相关依赖包会随最新的Java SDK发布,请下载最新的相关依赖包。

  2. 按照如下示例将SDK拷贝到Hive目录下。

    mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/                  

下载阿里云EMR SDK

下载EMR SDK依赖包,具体下载路径请参见EMR SDK依赖包