DBVisualizer提供了图形化的界面,使SQL的管理和执行更加直观和简便。如果您需要在DBVisualizer中开发Spark SQL作业,可以通过Hive驱动连接Spark Distribution SQL Engine。本文为您介绍在DBVisualizer客户端中使用Spark Distribution SQL Engine开发Spark SQL作业的具体流程。
前提条件
操作步骤
步骤一:启动Spark Distribution SQL Engine
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群ID。
在左侧导航栏,单击
。在编辑器窗口上方,选择Job型资源组,作业类型选择SQLEngine。
在编辑器中输入以下作业内容。
CONF spark.driver.resourceSpec=medium; CONF spark.executor.instances=1; CONF spark.executor.resourceSpec=small; CONF spark.app.name=Spark SQLEngine; CONF spark.sql.hive.metastore.version=adb; CONF spark.kubernetes.driverEnv.HIVE_SERVER2_USER=AdbSpark14****; CONF spark.kubernetes.driverEnv.HIVE_SERVER2_PASSWORD=Spark23****; CONF spark.adb.sessionTTLSeconds=604800;
参数如下:
参数
是否必填
说明
spark.app.name
是
Spark应用名称。
spark.sql.hive.metastore.version
是
指定采用元数据服务版本,支持如下配置:
adb:连接AnalyticDB for MySQL中的元数据信息。
<hive_version>:指定Hive MetaStore的版本。
说明Spark支持的Hive版本,请参见Spark Configuration。
如需要连接自建的Hive Metastore,可以采用社区Spark的标准配置方式。请参见Spark Configuration。
spark.kubernetes.driverEnv.HIVE_SERVER2_USER
是
Spark Distribution SQL Engine服务的用户名。用户名需包含大写字母、小写字母和数字,长度无限制。
spark.kubernetes.driverEnv.HIVE_SERVER2_PASSWORD
是
Spark Distribution SQL Engine服务的密码。密码需包含大写字母、小写字母和数字,长度无限制。
spark.adb.sessionTTLSeconds
是
Spark Distribution SQL Engine销毁时间。单位为秒(s),默认值为1200秒。即最后一个SQL代码块执行完毕,1200秒后Spark Distribution SQL Engine服务会自动销毁。
重要Spark Distribution SQL Engine销毁后,重启Spark Distribution SQL Engine时,会重新生成一个新的连接地址。
如果您需要在DBVisualizer中长期使用Spark Distribution SQL Engine,建议将
spark.adb.sessionTTLSeconds
参数配置为604800
,避免Spark Distribution SQL Engine长时间没有执行SQL而自动销毁。
单击立即执行。
步骤二:获取域名连接地址
登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表,在企业版、基础版或湖仓版页签下,单击目标集群ID。
在左侧导航栏,单击
。在应用列表页签中,单击目标Spark应用操作列的详情,获取Spark Distribution SQL Engine的域名地址,即
Spark JDBC Public Connect URL
对应的地址。
步骤三:在DBVisualizer中连接并使用Spark Distribution SQL Engine
打开DBVisualizer客户端,单击。
在Driver Manage页面,选择Hive,单击按钮。
在Driver Settings页签下,配置如下参数:
参数
说明
Name
Hive数据源名称,您可以自定义名称。
URL Format
请填写步骤二中获取的Spark Distribution SQL Engine的域名地址。详情请参见步骤二:获取域名连接地址。
Driver Class
Hive驱动,固定选择为org.apache.hive.jdbc.HiveDriver。
说明参数配置完成后,请单击Start Download,下载对应驱动。
驱动下载完成后,单击
。在Create Database Connection from Database URL对话框中填写以下参数:
参数
说明
Database URL
请填写步骤二中获取的Spark Distribution SQL Engine的域名地址。详情请参见步骤二:获取域名连接地址。
Driver
选择步骤3创建的Hive数据源。详情请参见Hive数据源。
在Connection页面配置以下连接参数:
参数
说明
Name
默认与步骤3创建的Hive数据源同名,您可以自定义名称。
Notes
备注信息。
Driver Type
选择Hive。
Database URL
请填写步骤二中获取的Spark Distribution SQL Engine的域名地址。详情请参见步骤二:获取域名连接地址。
Database Userid
请填写步骤一中启动Spark Distribution SQL Engine时设置的Spark Distribution SQL Engine服务的用户名。详情请参见步骤一:启动Spark Distribution SQL Engine。
Database Password
请填写步骤一中启动Spark Distribution SQL Engine时设置的Spark Distribution SQL Engine服务的密码。详情请参见步骤一:启动Spark Distribution SQL Engine。
说明其他参数无需配置,使用默认值即可。
单击Connect。
连接成功后,在Database页签下,展开对应数据源的子目录,单击对应数据库。
在右侧代码框中输入SQL语句,并单击按钮运行。
SHOW TABLES;
返回结果如下:
+-----------+-----------+-------------+ | namespace | tableName | isTemporary | +-----------+-----------+-------------+ | db | test | false | +-----------+-----------+-------------+