本文以创建Service下的HTTP响应时间超时的告警规则为例,介绍如何使用告警模板创建Kubernetes监控的告警。

前提条件

Kubernetes集群已成功接入Kubernetes监控。具体操作,请参见接入Kubernetes监控

背景信息

阿里云Kubernetes监控提供开箱即用的告警模板,您可以根据预置的告警模板创建告警规则,也可以自定义针对特定Kubernetes集群的告警规则。当告警规则被触发时,系统的通知策略会以您指定的告警方式向联系人发送告警信息,以提醒告警联系人采取必要的问题解决措施。Kubernetes监控预置的所有告警模板请参见Kubernetes监控告警模板

步骤一:进入创建报警面板

方法一

  1. 登录ARMS控制台
  2. 在左侧导航栏单击Kubernetes监控
  3. 在顶部菜单栏,选择地域。
  4. Kubernetes监控页面,单击Kubernetes集群名称。
  5. 在总览页面的命名空间区域单击目标命名空间下的Service。
    说明
    • 单击蓝色区域,进入所有资源列表。
    • 单击红色区域,进入异常资源列表。
  6. Service页签,单击目标Service名称。
  7. 在Service详情页面的HTTP协议下的响应时间区域,单击右上角的告警图标,进入创建报警面板。
    说明 通过这种方法进入创建报警面板,可以默认匹配当前指标的告警模板。例如,此处将会自动匹配Service HTTP平均响应时间阈值告警的告警模板。
    Kubernetes创建报警

方法二

  1. 登录ARMS控制台
  2. 在左侧导航栏单击Kubernetes监控
  3. 在顶部菜单栏,选择地域。
  4. Kubernetes监控页面,单击Kubernetes集群名称。
  5. 在左侧导航栏单击报警配置
  6. 在报警配置页面右上角,单击创建报警,进入创建报警面板。

步骤二:创建告警规则

创建报警面板,执行以下操作。

  1. 可选:如果在步骤一中选择通过方式二进入创建报警面板,那么在告警模板下拉列表,选择告警模板为Service HTTP平均响应时间阈值告警
  2. 根据需要修改模板中的参数。
    参数 说明 模板示例
    规则名称 告警规则的名称。 Service HTTP平均响应时间阈值告警
    告警表达式(PromQL) PromQL语句的告警规则的表达式。 floor(((avg by (namespace, name) (increase(agg_npm_entity_requests_duration_nanoseconds_total{type="service", protocol="http"}[5m])) / avg by (namespace, name) (increase(agg_npm_entity_requests_total{type="service", protocol="http"}[5m]))) / 1000000)) > 500
    持续时间 告警持续的时间,告警规则在设置的持续时间内都满足时才会上报告警事件。 1分钟
    告警消息(message) 告警发送的通知内容。 最近5分钟Service HTTP平均响应时间超过500ms, 当前值{{$value}}。集群:{{$labels.clustername}} / 命名空间: {{$labels.namespace}} / Service: {{$labels.name}}。查看详情:https://arms.console.aliyun.com/#/k8s/detail/{{$labels._aliyun_arms_region_id}}/{{$labels._aliyun_arms_involvedObject_id}}/service/detail/{{$labels.namespace}}/{{$labels.name}}?protocol=http
    高级配置 标签:设置的标签可用作通知策略的分派规则的选项。
    • _cmonitor_graph_key:duration
    • severity:warning
    • _cmonitor_protocol:http
    • _cmonitor_kind:service
    • _cmonitor_lang:zh
    注释:自定义告警规则的注释信息。
    说明 您可以自定义中的变量名,也可以选择已有的标签作为变量名
    customer_name:customer_value
    通知策略 如果不指定通知规则,告警规则创建后产生的事件将会和其他告警事件一起,由通知策略分派并发送告警通知。

    您也可以为当前告警规则指定通知策略。创建通知策略的操作,请参见通知策略

    不指定通知规则
  3. 单击确定
    报警配置页面显示创建的告警。Kubernetes监控告警规则

后续操作

管理告警规则

对于已经创建的告警规则,您可以进行以下操作:

  • 查看告警历史:如果您需要查看告警规则产生的所有事件,在目标告警规则右侧操作列单击告警历史,在告警事件历史页面查看对应的告警事件,更多信息,请参见查看告警事件历史
  • 编辑:如果您需要修改告警规则,在目标告警规则右侧操作列单击编辑,在编辑报警面板修改告警信息。
  • 开启:如果您需要开启关闭状态的告警规则,在目标告警规则右侧操作列单击开启
  • 关闭:如果您需要关闭开启状态的告警规则,在目标告警规则右侧操作列单击关闭
  • 删除:如果您需要删除告警规则,在目标告警规则右侧操作列单击删除,在弹出的对话框中单击确认