本文主要介绍基于原生Spark UI和YARN UI提供的运维与监控能力。
背景信息
Databricks数据洞察提供了原生的监控运维UI,例如Spark UI和YARN UI,用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询,配合平台侧的运维与监控能力,更好的服务于用户,运维Spark作业。集群Web UI的查询方式,请参考:集群Web UI。
日志监控
Spark UI
通过Spark History Server可以下载Spark的日志,也可以直接查询具体Executors的日志,如下图:
对于更完整内容的解析,可以参考Spark官方文档,Spark UI解析。
YARN UI
通过平台侧查询作业Application ID,通过YARN UI查询,点击具体的作业链接,可以查询到具体的作业信息。点击Logs链接,可以看到具体的container日志,如下图:
指标查询
YARN队列资源指标
Databricks数据洞察中YARN组件采用的是Capacity Scheduler,当用户访问Scheduler页面时,可以看到整个集群队列的资源状态,对于单一作业的资源指标状态也可以查询到,如下图:
对于这部分指标的解析,可以参考YARN官方文档,参数含义。
jmx的JSON全类别指标
Hadoop提供了JMX监控接口,可以获取到基于JSON类型的指标数据,其中包含JVM指标、RPC指标、YARN相关指标等等,具体指标含义可参考官方文档,指标详解。
访问方式可以将YARN UI中的链接地址进行拼接修改,具体格式为原域名+/gateway/cluster-topo/yarn/jmx
举例如下:
App展示网址:https://knox-c-xxxxx-cn-beijing.databricks.aliyuncs.com:8443/gateway/cluster-topo/yarn/cluster/apps
JMX指标网址:https://knox-c-xxxxx-cn-beijing.databricks.aliyuncs.com:8443/gateway/cluster-topo/yarn/jmx
用户可以参考自己的网址进行访问,示例结果如下图: