配置并查看Spark作业监控与报警

本文为您介绍如何通过阿里云ARMS服务收集并查看Spark作业的监控指标,以及如何基于监控指标设置报警。

前提条件

配置Prometheus监控

  1. 开启Pod Monitor能力。

    1. 登录ARMS控制台

    2. 在左侧导航栏,单击接入管理

    3. 已接入环境页签,查看容器环境列表,单击目标容器环境操作列的指标采集,进入指标采集页面。

    4. 指标采集页签,单击Pod Monitor,进入Pod Monitor配置页面。

    5. Podmonitor页签,依次打开sparkoperator-podmonitorsparkoperator-spark-podmonitorshuffleservice-master-podmonitorshuffleservice-worker-podmonitor操作列的开关。

      说明

      如果您没有部署Shuffle Service集群,请忽略shuffleservice-master-podmonitorshuffleservice-worker-podmonitor

  2. 提交Spark作业,具体操作请参见提交Spark作业

  3. 可选:通过Grafana大盘查看指标曲线。

    1. 登录Grafana大盘概览页

    2. 在左侧导航栏,单击Explore图标。

    3. Explore页面顶部下拉框中选择ACK集群,输入Metric名称,然后单击右上角的Run Query进行调试。

      说明
      • Spark Pod的指标以spark_driver_、spark_executor_或jvm_开头。

      • Spark Operator的指标以spark_app开头。

      • Shuffle Service的指标以metrics_开头。

查看告警

  1. 进入告警规则页面。

    1. 登录EMR on ACK

    2. 在EMR on ACK页面,单击目标集群所在行所属ACK集群列的链接。

    3. 在左侧导航栏中,选择运维管理 > Prometheus监控

    4. Prometheus监控页面,控制台自动安装组件、检查监控大盘。

      安装完成后,单击各个页签可以查看相应监控数据。

    5. Prometheus监控页面,单击右上角的跳转到Prometheus服务

    6. 在左侧导航栏,单击告警规则

  2. 配置告警规则。

    1. Prometheus告警规则页面,单击创建Prometheus告警规则

    2. 创建Prometheus告警规则,详情请参见通过自定义PromQL创建Prometheus告警规则

  3. Prometheus告警规则页面,单击目标告警操作列的告警事件历史

    当报警条件满足时,即可看到相应的报警。