阿里云首页 云原生应用交付平台ADP

组件告警

告警能力概述

ADP部署的环境默认使用Prometheus提供监控告警能力。

组件预定义告警规则

各个业务方需要根据透出的metrics指标来梳理报警阀值和报警规则创建 PrometheusRule CR。Rules 内容参考官方文档 :https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/

配置示例:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    prometheus: k8s
    role: alert-rules
  name: prometheus-k8s-rules
  namespace: acs-system
spec:
  groups:
  - name: k8s.rules
    rules:
    - expr: |
        sum(container_memory_usage_bytes{job="kubelet", image!=""}) by (namespace)
      record: namespace:container_memory_usage_bytes:sum

将PrometheusRule CR放入组件HelmChart即可

在ADP-Local上新建告警规则

说明

更建议使用预定义规则进行告警规则创建,此功能主要适用于运维阶段增加告警规则,及帮助对Prometheus不熟悉的人员创建告警规则。

在产品运维的告警策略页面单击创建新策略,可以新建自定义规则,可针对组件创建下面几类指标的告警。

  1. CPU使用量

  2. 内存使用量

  3. 网络带宽流出量

  4. 网络带宽流入量

  5. PV可用容量

作用对象可从下面几类中选择:

  1. 组件整体满足条件

  2. 组件中的任意Pod满足条件

  3. 组件中的所有Pod满足条件

告警消息

告警消息可在消息列表中查看,表示现在正在活跃的告警,单击详情按钮可以查看其详细内容。

告警的暂停与恢复

在消息右侧的暂停按钮,可以将告警暂停一段时间,被暂停的告警不会再通过配置的告警通道发出通知(如钉钉、邮件),在adp-local的列表中依然会展示,状态为暂停中

被暂停的告警可以操作恢复按钮恢复,被恢复的告警状态会恢复为告警中