DLA不仅支持使用定义好的报警模板对所有作业进行监控报警,还支持对单个作业进行监控报警。本文介绍如何针对特定的作业进行监控报警。

前提条件

指定作业延时触发报警

通常情况下,选择了作业延时的模板,只要有作业延时就会报警。如果您需要精确地针对特定虚拟集群的特定作业进行监控报警,可以在创建报警页面选择Spark Structure Streaming作业处理延时大于10秒模板,按下面的语法修改告警表达式
spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > $(latency_sec)
说明 如何进入创建报警页面请参见添加报警
告警表达式中的参数说明如下。
参数名称 参数说明
vcName 作业相关的虚拟集群名称。
job_id 作业ID。
latency_sec 作业处理延时时间,以秒为单位。
说明 关于报警的更多信息,请参见管理报警

指定作业停止触发报警

通常情况下,选择了作业停止的模板,只要有作业停止就会报警。如果您需要精确地针对特定作业进行监控报警,可以在创建报警页面选择Spark作业停止模板,按下面的语法修改告警表达式
sum by (parent_job) (label_replace(up{pod_name=~"${job_id}.*-driver"}, "parent_job", "$1", "pod_name", "(.*?)-(.*)")) < 1
说明 如何进入创建报警页面请参见添加报警
告警表达式中的参数说明如下。
参数名称 参数说明
job_id 作业ID。
说明 关于报警的更多信息,请参见管理报警