文档

自建数据源Spark SQL

更新时间:

添加Spark SQL数据源用于连通Spark SQL数据库与Quick BI,连接成功后,您可以在Quick BI上进行数据的分析与展示。Quick BI支持以公网或阿里云VPC的方式连接Spark SQL数据库(3.1.2版本),本文为您介绍如何添加Spark SQL自建数据源。

前提条件

  • 确保您的网络已连通:

    • 您通过公网连接Quick BI与Spark SQL数据库(3.1.2版本),请添加Quick BI的IP地址至数据库白名单,请参见添加安全组规则

    • 您通过内网连接Quick BI与Spark SQL数据库(3.1.2版本),请通过以下任意一种方式,实现数据源与Quick BI网络连通:

      • 当Spark SQL数据库搭建在阿里云的ECS上,您可以通过阿里云VPC连接。

      • 您也可以搭建跳板机,并通过SSH隧道访问登录并访问数据库。

  • 已获取自建Spark SQL数据库(3.1.2版本)的用户名和密码。

使用限制

Spark SQL数据库支持3.1.2版本,且底层存储Hive MetaStore为Hive 2.0及以上版本。

操作步骤

  1. 登录Quick BI控制台

  2. 请按照下述步骤添加数据源。

    1. 创建数据源入口进入创建数据源界面。

    2. 单击显示更多。image

    3. 选择Spark SQL数据源。image

  3. 配置连接对话框,您可以根据业务场景,完成以下配置。

    名称

    描述

    显示名称

    数据源配置列表的显示名称。

    请输入规范的名称,不要使用特殊字符,前后不能包含空格。

    数据库地址

    部署Spark SQL数据库的地址,包括IP或URL。

    端口

    数据库的对应的端口号。

    数据库

    部署Spark SQL数据库时自定义的数据库名称。

    用户名密码

    登录Spark SQL数据库的用户名和密码。 请确保该用户名具备数据库中表的create、insert、update和delete权限。

    VPC数据源

    仅当Spark SQL数据库部署在阿里云ECS上,且网络类型为阿里云VPC网络时,请选中VPC数据源并配置如下参数:

    • 购买者AccessId:购买此实例的AccessKey ID。

      请参见获取AccessKey

    • 购买者AccessKey:购买此实例的AccessKey Secret。

      请参见获取AccessKey

    • 实例ID:ECS实例ID。

    • 区域:ECS实例所在区域。

    SSH

    如果您选中SSH,则需要配置如下参数:

    您可以搭建跳板机,并通过SSH隧道访问登录并访问数据库。跳板机的信息请找运维或系统管理员获取。

    • SSH Host:输入跳板机IP地址。

    • SSH 用户名:登录跳板机的用户名。

    • SSH 密码:登录跳板机的用户名对应密码。

    • SSH 端口:跳板机的端口。默认为22。

    请参见通过密码认证登录Linux实例

    说明

    仅专业版支持通过SSH隧道的方式访问自建数据源。

    初始化SQL

    每次数据源连接后初始化执行的SQL语句,只允许SET语句,语句之间以分号分割,不允许换行。

  4. 单击连接测试,进行数据源连通性测试。

    image.png
  5. 测试成功后单击确定,完成数据源添加。

    此时您可以在数据列表中,看到您创建的数据源。

后续步骤

创建数据源后,您还可以创建数据集并分析数据。

  • 本页导读 (0)
文档反馈