Spark作业原生运维与监控

本文主要介绍基于原生Spark UI和YARN UI提供的运维与监控能力。

背景信息

Databricks数据洞察提供了原生的监控运维UI,例如Spark UI和YARN UI,用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询,配合平台侧的运维与监控能力,更好的服务于用户,运维Spark作业。集群Web UI的查询方式,请参考:集群Web UI

日志监控

Spark UI

通过Spark History Server可以下载Spark的日志,也可以直接查询具体Executors的日志,如下图:日志下载Executors日志

对于更完整内容的解析,可以参考Spark官方文档,Spark UI解析

YARN UI

通过平台侧查询作业Application ID,通过YARN UI查询,点击具体的作业链接,可以查询到具体的作业信息。点击Logs链接,可以看到具体的container日志,如下图:

作业界面日志详情

指标查询

YARN队列资源指标

Databricks数据洞察中YARN组件采用的是Capacity Scheduler,当用户访问Scheduler页面时,可以看到整个集群队列的资源状态,对于单一作业的资源指标状态也可以查询到,如下图:

YARN指标单一作业指标

对于这部分指标的解析,可以参考YARN官方文档,参数含义

jmx的JSON全类别指标

Hadoop提供了JMX监控接口,可以获取到基于JSON类型的指标数据,其中包含JVM指标、RPC指标、YARN相关指标等等,具体指标含义可参考官方文档,指标详解

访问方式可以将YARN UI中的链接地址进行拼接修改,具体格式为原域名+/gateway/cluster-topo/yarn/jmx

举例如下:

App展示网址:https://knox-c-xxxxx-cn-beijing.databricks.aliyuncs.com:8443/gateway/cluster-topo/yarn/cluster/apps

JMX指标网址:https://knox-c-xxxxx-cn-beijing.databricks.aliyuncs.com:8443/gateway/cluster-topo/yarn/jmx

用户可以参考自己的网址进行访问,示例结果如下图:

jmx结果