介绍使用Saprk/Spark SQL来查询和链接表格存储中的表需要的环境准备。

使用Saprk/Spark SQL来查询和链接表格存储中的表

通过表格存储E-MapReduce官方团队发布的依赖包,可以直接使用Spark及Spark SQL来访问表格存储中的数据并进行数据的查询分析。

安装 JDK-7+

  1. 下载并安装 JDK-7+ 安装包。
    • Linux/MacOS 系统:使用系统自带的包管理器安装

    • Windows 系统:点此下载

  2. 按照以下示例进行安装检查。
        $ java -version
        java version "1.8.0_77"
        Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
        Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
    						

下载及安装Spark/Spark SQL

  1. 下载版本号为1.6.2的Spark安装包,安装包类型为Pre-built for Hadoop 2.6,具体下载路径请参见Spark安装包
  2. 按照如下示例解压安装包。
    $ cd /home/admin/spark-1.6.2
    $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz                 

下载表格存储的Java SDK

  1. 在 Maven 库中下载 4.1.0 版本以上的 Java SDK 相关依赖包。(点此下载
    说明 该依赖包会随最新的 Java SDK 发布,请根据最新的 Java SDK 版本下载相关依赖包。
  2. 按照如下示例将SDK拷贝到Spark目录下。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/              

下载阿里云 EMR SDK

点此下载 EMR SDK 依赖包。

说明 了解更多 EMR 信息请参考这里

启动Spark SQL

$ cd /home/admin/spark-1.6.2/
$ bin/spark-sql --master local --jars tablestore-4.3.1-jar-with-dependencies.jar,emr-tablestore-1.4.2.jar