文档

如何配置ACK One ArgoCD告警

更新时间:

ACK One的舰队监控基于可观测监控Prometheus版的监控指标,提供了舰队自身的监控大盘,您可以根据自身需求自定义告警规则,实时监控相关指标。本文介绍如何配置ACK One ArgoCD告警。

前提条件

  • 已开启舰队监控。具体操作,请参见开启舰队监控

  • 已创建通知对象。相关信息,请参见告警通知对象

    说明

    若您通知对象配置为钉钉,需要在钉钉机器人安全设置中添加自定义关键词告警。相关信息,请参见钉钉官方文档

配置ACK One ArgoCD告警

  1. 登录ACK One控制台,在左侧导航栏选择舰队 > 舰队监控

  2. 舰队监控页面右上角,单击报警设置,进入Prometheus告警规则页面。

  3. 单击创建Prometheus告警规则,完成下列配置后单击完成。更多详细信息,请参见Prometheus告警规则模板

    配置信息

    说明

    示例

    告警名称

    自定义告警的名称。

    ACK One ArgoCD Pod内存告警。

    检测类型

    可选静态阈值自定义PromQL

    选择静态阈值

    Prometheus实例

    填入您的ACK One舰队名称。

    text-XXXX。

    告警分组

    您环境所需监控的Kubernetes分组。

    Kubernetes负载。

    告警指标

    请根据实际需求选择。重点关注容器内存使用率容器CPU使用率

    容器内存使用率

    告警条件

    基于告警指标预置内容设置告警事件产生条件。

    当容器CPU使用率大于80%时,满足告警条件。

    筛选条件

    根据告警指标,设置当前配置的告警规则所适用的范围,即所有符合筛选条件的资源满足此条告警规则时,均会产生告警事件。

    可选筛选条件包括:

    • 遍历:告警规则适用于当前Prometheus实例下的所有资源。筛选条件默认为遍历。

    • 等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将仅适用于对应资源。不支持同时填写多个资源。

    • 不等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将适用于除该资源之外的其他资源。不支持同时填写多个资源。

    • 正则匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将适用于符合该正则表达式的所有资源。

    • 正则不匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将过滤符合该正则表达式的所有资源。

    命名空间等于argocd,Pod:遍历,容器:遍历。

    持续时间

    • 当告警条件满足时,直接产生告警事件:任何一个数据点满足阈值,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    当告警条件满足持续1分钟时,才产生告警事件。

    告警等级

    自定义告警等级。默认告警等级为默认,告警严重程度从默认、P4、P3、P2、P1逐级上升。

    P1。

    告警内容

    用户收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。

    命名空间:{{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器:{{$labels.container}} CPU使用率{{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, 当前值{{ printf "%.2f" $value }}%

    告警通知

    可选极简模式普通模式

    选择极简模式

    通知对象

    请根据实际需求选择告警通知对象。

    钉钉告警。

    通知时段

    请根据实际需求填写告警通知时间段。

    23:00至01:00。

    重复策略

    请根据实际需求填写每隔几分钟,进行告警重复通知。

    告警每隔10分钟重复通知。

  4. 配置完成后,触发告警条件,可在告警通知对象侧查看告警信息。

    说明

    可通过Prometheus控制台查看告警发送历史,具体信息,请参见查看告警发送历史