组件监控告警说明

更新时间: 2022-12-01 18:07:03

ADP底座针对所有组件,提供了默认的基础监控大盘和通用的资源级告警策略。对于普通业务组件来说,无需关注计算资源、存储资源层面的监控告警规则。

组件监控

功能路径:进入产品管理,点击组件列表中的组件,然后点击组件监控

功能说明:不同组件的监控大盘是不一样的,普通组件默认具备计算资源和监控资源两个监控大盘。

监控大盘说明

ADP底座针对所有组件,默认提供基础监控大盘,主要包括计算资源和网络资源的监控大盘,我们可以进入该组件的明细管理界面,查看这两种监控大盘:

  • 计算资源监控大盘

1

  • 网络资源监控大盘

1

监控指标

ADP底座针对所有组件的资源使用情况,提供了默认的监控指标:

指标名称

指标标题

指标描述

component:cpu_request:sum

组件CPU请求量

组件中所有的容器组(Pod)声明的运行所需要的最小CPU数总和

component:cpu_limit:sum

组件CPU限制量

组件中所有的容器组(Pod)声明的运行能使用的最大CPU数总和

component:cpu_usage:sum

组件CPU使用量

组件中所有的容器组(Pod)当前CPU使用核数总和

component:cpu_utilisation:ratio

组件CPU使用率

组件当前CPU使用比率

component:memory_request:sum

组件内存请求量

组件中所有的容器组(Pod)声明的运行所需要的最小内存数量总和,单位:字节(byte)

component:memory_limit:sum

组件内存限制量

组件中所有的容器组(Pod)声明的运行能使用的最大内存数量总和,单位:字节(byte)

component:memory_working_set_bytes:sum

组件内存使用量

组件中所有的容器组(Pod)当前使用中的内存总量,单位:字节(byte)

component:storage_total:sum

组件持久卷容量

组件中所有的容器组(Pod)持久卷(PersistentVolume)的容量总和,单位:字节(byte)

component:storage_available:sum

组件持久卷剩余可用容量

组件中所有的容器组(Pod)持久卷(PersistentVolume)剩余可用容量总和,单位:字节(byte)

component:storage_usage:sum

组件持久卷使用量

组件中所有的容器组(Pod)持久卷(PersistentVolume)使用量总和,单位:字节(byte)

component:storage_usage:ratio

组件持久卷使用率

组件中所有的容器组(Pod)持久卷(PersistentVolume)总体使用率,范围0~1(0%~100%)

component:net_bytes_transmitted:sum

组件网络数据发送

组件中所有的容器组(Pod)网络数据的发送速度总和,单位:字节/秒(byte/second)

component:net_bytes_received:sum

组件网络数据接收

组件中所有的容器组(Pod)网络数据的接收速度总和,单位:字节/秒(byte/second)

component:pod_count:sum

组件容器组总量

组件包含的容器组(Pod)数量

component:persistent_volume_num:sum

组件PV总数

组件中所有的容器组(Pod)声明的PV数总和

组件级的监控指标有product和component两个标签,例如我们查询某产品下的MySQL实例的组件CPU请求量:

component:cpu_request:sum{component="mysql-mysql", product="demo"}

告警策略

ADP底座针对所有组件的资源使用情况,提供了默认的告警策略:

告警名称

告警标题

告警摘要

告警描述

修复方案

component:{componentName}:cpu_usage:ratio

组件CPU使用率过高

组件CPU使用率持续2分钟,当前值>95% 告警

组件{{ $labels.component }}的CPU使用率{{ $value }}将达到最大限制

进入该组件的运维操作界面,进行水平扩容或者垂直扩容

component:{componentName}:memory_usage:ratio

组件内存使用率过高

组件内存使用率持续2分钟,当前值>95% 告警

组件{{ $labels.component }}的内存使用率{{ $value }}将达到最大限制

进入该组件的运维操作界面,进行水平扩容或者垂直扩容

component:{componentName}:storage_usage:ratio

组件磁盘使用率过高

组件磁盘使用率持续2分钟,当前值>95% 告警

组件{{ $labels.component }}的磁盘使用率{{ $value }}将达到最大限制

有两种方案:

  • 可以进入该组件的运维操作界面,进行PVC存储扩容

  • 磁盘日志清理

注意:组件的告警策略不同共用,每个组件需要设置不同的告警阈值。

阿里云首页 云原生应用交付平台 相关技术圈