全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
表格存储

环境准备

更新时间:2017-07-20 15:38:48

使用 Saprk/Spark SQL 来查询和链接表格存储中的表

通过表格存储E-MapReduce 官方团队发布的依赖包,可以直接使用 Spark 及 Spark SQL 来访问表格存储中的数据并进行数据的查询分析。

下载及安装 Spark/Spark SQL

  1. 下载版本号为 1.6.2 的 Spark 安装包,安装包类型为 Pre-built for Hadoop 2.6。(点此下载

  2. 按照如下示例解压安装包。

    1. $ cd /home/admin/spark-1.6.2
    2. $ tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz

安装 JDK-7+

  1. 下载并安装 JDK-7+ 安装包。

    • Linux/MacOS 系统:请用系统自带的包管理器进行安装

    • Windows 系统:点此下载

  2. 按照如下示例进行安装检查。

    1. $ java -version
    2. java version "1.8.0_77"
    3. Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
    4. Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)

下载表格存储的 Java SDK

  1. 在 Maven 库中下载 4.1.0 版本以上的 Java SDK 相关依赖包。(点此下载

    注意:该依赖包会随最新的 Java SDK 发布,请根据最新的 Java SDK 版本下载相关依赖包。

  2. 按照如下示例将 SDK 拷贝到 Spark 目录下。

    1. $ mv tablestore-4.1.0-jar-with-dependencies.jar /home/admin/spark-1.6.2/

下载阿里云 EMR SDK

  1. 下载 EMR SDK 相关的依赖包。(点此下载

    说明:了解更多 EMR 信息请参见这里

启动 Spark SQL

  1. $ cd /home/admin/spark-1.6.2/
  2. $ bin/spark-sql --master local --jars tablestore-4.1.0-jar-with-dependencies.jar,emr-sdk_2.10-1.3.0-SNAPSHOT.jar
本文导读目录