DLA支持配置虚拟集群以及Spark作业级别的监控告警,您可以设置报警规则,系统在监控数据满足条件时,会通知报警联系组中的所有联系人。

背景信息

监控报警是通过阿里云Prometheus监控实现的。通过阿里云Prometheus监控,您可以查看监控大盘,设置监控项,在触发监控项的报警规则时,Prometheus监控可以通过邮件、钉钉、短信、电话通知报警联系组中的所有联系人。您可以维护报警监控项对应的报警联系组,以便发生报警时,相关联系人能及时收到通知。

前提条件

  • 您已经成功购买DLA虚拟集群。
  • 如果您是RAM用户,请确认已具备AliyunARMSFullAccess权限。

添加报警

  1. 登录Data Lake Analytics管理控制台
  2. 单击左侧导航栏中的虚拟集群管理
  3. 单击目标虚拟集群详情虚拟集群管理
  4. 在左侧导航栏单击监控报警,选择报警
  5. 在右侧单击创建报警,进入报警配置界面。报警
  6. 创建报警面板,执行以下操作:
    1. 告警模板下拉列表,选择模板。

      DLA支持的模板列表有Presto集群CPU利用率大于 90%、Presto集群内存利用率大于90%、Spark虚拟集群CPU/Memory Quota 利用率大于90%、Spark Structure Streaming作业处理延时大于10秒、Spark流作业Batch处理时长大于10秒、Spark作业节点每分钟Full GC时间大于10秒、Spark作业节点内存利用率大于90%。

    2. 规则名称文本框,输入规则名称,例如:Spark Structure Streaming作业处理延时大于10秒。
    3. 告警表达式文本框,输入告警表达式。以Spark Structure Streaming作业处理延时大于10秒为例,默认表达式为spark_structured_streaming_driver_latency / 1000 > 10
      说明 如果您需要监控某个作业的延时情况,请修改表达式为 spark_structured_streaming_driver_latency{vcName="$(vcName)",app_id=~"$(job_id).*"} / 1000 > 10,其中 $(vcName)$(job_id)替换为您需要监控的作业所在的虚拟集群名称和作业ID。
    4. 持续时间文本框,输入时间,例如:1分钟,当告警条件连续1分组都满足时才会发送告警。
    5. 告警消息文本框,输入告警消息。
    6. 可选:高级配置标签区域,单击创建标签可以设置报警标签,设置的标签可用作分派规则的选项。
    7. 可选:高级配置注释区域,单击创建注释,设置message,设置 {{变量名}}告警信息。设置完成后的格式为:message:{{变量名}}告警信息,例如:message:{{$labels.pod_name}}重启
      您可以自定义 变量名,也可以选择已有的标签作为 变量名。已有的标签包括:
      • 报警规则表达式指标中携带的标签。
      • 通过报警规则创建的标签。
      • ARMS系统自带的默认标签,默认标签说明如下。
        标签 说明
        alertname 告警名称,格式为:告警名称_集群名称。
        _aliyun_arms_alert_level 告警等级。
        _aliyun_arms_alert_type 告警类型。
        _aliyun_arms_alert_rule_id 告警规则对应的ID。
        _aliyun_arms_region_id 地域ID。
        _aliyun_arms_userid 用户ID。
        _aliyun_arms_involvedObject_type 关联对象子类型,如ManagedKubernetes,ServerlessKubernetes。
        _aliyun_arms_involvedObject_kind 关联对象分类,如app,cluster。
        _aliyun_arms_involvedObject_id 关联对象ID。
        _aliyun_arms_involvedObject_name 关联对象名称。
    8. 通知策略下拉列表,选择通知策略。
      如何创建通知策略,请参见 通知策略
    9. 单击确定
    报警配置页面显示创建的报警。 8

管理报警规则

  1. 登录Data Lake Analytics管理控制台
  2. 单击左侧导航栏中的虚拟集群管理
  3. 单击目标虚拟集群详情虚拟集群管理
  4. 在左侧导航栏单击监控报警,选择报警
  5. 单击报警页签,在右侧操作列按需对目标报警规则采取以下操作。
    • 如需编辑报警规则,请单击编辑,在编辑报警对话框中编辑报警规则,并单击确认
    • 如需启动未启用的报警规则,请单击开启,然后在状态列中查看启动状态。
    • 如需停用已启用的报警规则,请单击关闭,然后在状态列中查看停用状态。
    说明 管理报警的具体操作,请参见 管理报警