全部产品
表格存储

环境准备

更新时间:2017-07-20 14:45:25   分享:   

使用 Hive/HadoopMR 来访问表格存储中的表

通过表格存储E-MapReduce 官方团队发布的依赖包,可以直接使用 Hive 及 HadoopMR 来访问表格存储中的数据并进行数据分析。

安装 JDK-7+

  1. 下载并安装 JDK-7+ 安装包。

    • Linux/MacOS 系统:使用系统自带的包管理器安装

    • Windows 系统:点此下载

  2. 按照以下示例进行安装检查。

    1. $ java -version
    2. java version "1.8.0_77"
    3. Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    4. Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)

安装并启动 Hadoop 环境

  1. 下载 2.6.0 版本以上的 Hadoop 安装包。(点此下载

  2. 解压并安装,根据实际集群情况安装 Hadoop 服务。

  3. 按照如下示例启动 Hadoop 环境。

    1. $ bin/start-all.sh
    2. # 检查服务是否成功启动
    3. $ jps
    4. 24017 NameNode
    5. 24835 Jps
    6. 24131 DataNode
    7. 24438 ResourceManager
    8. 5114 HMaster
    9. 24287 SecondaryNameNode
    10. 24527 NodeManager
  4. /etc/profile 中添加 Hadoop 路径,并执行 source /etc/profile 的命令使配置生效。

    1. export HADOOP_HOME=/data/hadoop/hadoop-2.6.0
    2. export PATH=$PATH:$HADOOP_HOME/bin

下载及安装 Hive 环境

  1. 下载类型为 bin.tar.gz 的 Hive 安装包。(点此下载

  2. 按照如下示例解压安装包。

    1. $ mkdir /home/admin/hive-2.1.0
    2. $ tar -zxvf apache-hive-2.1.0-bin.tar.gz -C /home/admin/
    3. $ mv /home/admin/apache-hive-2.1.0-bin /home/admin/hive-2.1.0/
  3. 按照如下示例初始化 schema。

    1. # 进入指定的目录
    2. $ cd /home/admin/hive-2.1.0/
    3. # 初始化,如果是mysql则derby可以直接替换成mysql
    4. # 如果执行出错可以删除rm -rf metastore_db/之后重新执行
    5. $ ./bin/schematool -initSchema -dbType derby
  4. 按照如下示例启动 Hive 环境。

    1. $ ./bin/hive
    2. # 检查服务是否成功启动
    3. hive> show databases;
    4. OK
    5. default
    6. Time taken: 0.207 seconds, Fetched: 1 row(s)

下载表格存储的 JAVA SDK

  1. 在 Maven 库中下载 4.1.0 版本以上的 JAVA SDK 相关依赖包。(点此下载

    说明:该依赖包会随最新的 JAVA SDK 发布,请根据最新的 JAVA SDK 版本下载相关依赖包。

  2. 按照如下示例将 SDK 拷贝到 Hive 目录下。

    1. $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/hive-2.1.0/

下载阿里云 EMR SDK

点此下载 EMR SDK 依赖包。

说明:了解更多 EMR 信息请参考这里

本文导读目录
本文导读目录
以上内容是否对您有帮助?