本文为您介绍如何通过阿里云ARMS服务收集并查看Spark作业的监控指标,以及如何基于监控指标设置报警。
前提条件
已在E-MapReduce on ACK控制台创建Spark集群,详情请参见快速使用EMR on ACK。
已开通阿里云应用实时监控服务ARMS,详情请参见Prometheus实例for容器服务。
配置Prometheus监控
开启Pod Monitor能力。
登录ARMS控制台。
在左侧导航栏,单击接入管理。
在已接入环境页签,查看容器环境列表,单击目标容器环境操作列的指标采集,进入指标采集页面。
在指标采集页签,单击Pod Monitor,进入Pod Monitor配置页面。
在Podmonitor页签,依次打开sparkoperator-podmonitor、sparkoperator-spark-podmonitor、shuffleservice-master-podmonitor和shuffleservice-worker-podmonitor操作列的开关。
说明如果您没有部署Shuffle Service集群,请忽略shuffleservice-master-podmonitor和shuffleservice-worker-podmonitor。
提交Spark作业,具体操作请参见提交Spark作业。
可选:通过Grafana大盘查看指标曲线。
登录Grafana大盘概览页。
在左侧导航栏,单击图标。
在Explore页面顶部下拉框中选择ACK集群,输入Metric名称,然后单击右上角的Run Query进行调试。
说明Spark Pod的指标以spark_driver_、spark_executor_或jvm_开头。
Spark Operator的指标以spark_app开头。
Shuffle Service的指标以metrics_开头。
查看告警
进入告警规则页面。
登录EMR on ACK。
在EMR on ACK页面,单击目标集群所在行所属ACK集群列的链接。
在左侧导航栏中,选择 。
在Prometheus监控页面,控制台自动安装组件、检查监控大盘。
安装完成后,单击各个页签可以查看相应监控数据。
在Prometheus监控页面,单击右上角的跳转到Prometheus服务。
在左侧导航栏,单击告警规则。
配置告警规则。
在Prometheus告警规则页面,单击创建Prometheus告警规则。
创建Prometheus告警规则,详情请参见通过自定义PromQL创建Prometheus告警规则。
在Prometheus告警规则页面,单击目标告警操作列的告警事件历史。
当报警条件满足时,即可看到相应的报警。