介绍使用Saprk/Spark SQL来查询和链接表格存储中的表需要的环境准备。

使用Saprk/Spark SQL来查询和链接表格存储中的表

通过表格存储E-MapReduce官方团队发布的依赖包,可以直接使用Spark及Spark SQL来访问表格存储中的数据并进行数据的查询分析。

安装JDK-7+

  1. 下载并安装JDK-7+安装包。
    • Linux/macOS系统:使用系统自带的包管理器安装

    • Windows系统:具体下载路径请参见JDK安装包

  2. 按照以下示例进行安装检查。
        $ java -version
        java version "1.8.0_77"
        Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
        Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
    						

下载及安装Spark/Spark SQL

  1. 下载版本号为1.6.2的Spark安装包,安装包类型为Pre-built for Hadoop 2.6,具体下载路径请参见Spark安装包
  2. 按照如下示例解压安装包。
    $ cd /home/admin/spark-1.6.2
    $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz                 

下载表格存储的Java SDK

  1. 在Maven库中下载4.1.0版本以上的Java SDK相关依赖包,具体下载路径请参见Java SDK历史迭代版本
    Java SDK相关依赖包会随最新的Java SDK发布,请下载最新的相关依赖包。
  2. 按照如下示例将SDK拷贝到Spark目录下。
    $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/              

下载阿里云EMR SDK

下载EMR SDK依赖包,具体下载路径请参见EMR SDK依赖包

启动Spark SQL

$ cd /home/admin/spark-1.6.2/
$ bin/spark-sql --master local --jars tablestore-4.3.1-jar-with-dependencies.jar,emr-tablestore-1.4.2.jar