组件监控告警说明
ADP底座针对所有组件,提供了默认的基础监控大盘和通用的资源级告警策略。对于普通业务组件来说,无需关注计算资源、存储资源层面的监控告警规则。
组件监控
功能路径:进入产品管理,点击组件列表中的组件,然后点击组件监控
功能说明:不同组件的监控大盘是不一样的,普通组件默认具备计算资源和监控资源两个监控大盘。
监控大盘说明
ADP底座针对所有组件,默认提供基础监控大盘,主要包括计算资源和网络资源的监控大盘,我们可以进入该组件的明细管理界面,查看这两种监控大盘:
计算资源监控大盘
网络资源监控大盘
监控指标
ADP底座针对所有组件的资源使用情况,提供了默认的监控指标:
指标名称 | 指标标题 | 指标描述 |
component:cpu_request:sum | 组件CPU请求量 | 组件中所有的容器组(Pod)声明的运行所需要的最小CPU数总和 |
component:cpu_limit:sum | 组件CPU限制量 | 组件中所有的容器组(Pod)声明的运行能使用的最大CPU数总和 |
component:cpu_usage:sum | 组件CPU使用量 | 组件中所有的容器组(Pod)当前CPU使用核数总和 |
component:cpu_utilisation:ratio | 组件CPU使用率 | 组件当前CPU使用比率 |
component:memory_request:sum | 组件内存请求量 | 组件中所有的容器组(Pod)声明的运行所需要的最小内存数量总和,单位:字节(byte) |
component:memory_limit:sum | 组件内存限制量 | 组件中所有的容器组(Pod)声明的运行能使用的最大内存数量总和,单位:字节(byte) |
component:memory_working_set_bytes:sum | 组件内存使用量 | 组件中所有的容器组(Pod)当前使用中的内存总量,单位:字节(byte) |
component:storage_total:sum | 组件持久卷容量 | 组件中所有的容器组(Pod)持久卷(PersistentVolume)的容量总和,单位:字节(byte) |
component:storage_available:sum | 组件持久卷剩余可用容量 | 组件中所有的容器组(Pod)持久卷(PersistentVolume)剩余可用容量总和,单位:字节(byte) |
component:storage_usage:sum | 组件持久卷使用量 | 组件中所有的容器组(Pod)持久卷(PersistentVolume)使用量总和,单位:字节(byte) |
component:storage_usage:ratio | 组件持久卷使用率 | 组件中所有的容器组(Pod)持久卷(PersistentVolume)总体使用率,范围0~1(0%~100%) |
component:net_bytes_transmitted:sum | 组件网络数据发送 | 组件中所有的容器组(Pod)网络数据的发送速度总和,单位:字节/秒(byte/second) |
component:net_bytes_received:sum | 组件网络数据接收 | 组件中所有的容器组(Pod)网络数据的接收速度总和,单位:字节/秒(byte/second) |
component:pod_count:sum | 组件容器组总量 | 组件包含的容器组(Pod)数量 |
component:persistent_volume_num:sum | 组件PV总数 | 组件中所有的容器组(Pod)声明的PV数总和 |
组件级的监控指标有product和component两个标签,例如我们查询某产品下的MySQL实例的组件CPU请求量:
component:cpu_request:sum{component="mysql-mysql", product="demo"}
告警策略
ADP底座针对所有组件的资源使用情况,提供了默认的告警策略:
告警名称 | 告警标题 | 告警摘要 | 告警描述 | 修复方案 |
component:{componentName}:cpu_usage:ratio | 组件CPU使用率过高 | 组件CPU使用率持续2分钟,当前值>95% 告警 | 组件{{ $labels.component }}的CPU使用率{{ $value }}将达到最大限制 | 进入该组件的运维操作界面,进行水平扩容或者垂直扩容 |
component:{componentName}:memory_usage:ratio | 组件内存使用率过高 | 组件内存使用率持续2分钟,当前值>95% 告警 | 组件{{ $labels.component }}的内存使用率{{ $value }}将达到最大限制 | 进入该组件的运维操作界面,进行水平扩容或者垂直扩容 |
component:{componentName}:storage_usage:ratio | 组件磁盘使用率过高 | 组件磁盘使用率持续2分钟,当前值>95% 告警 | 组件{{ $labels.component }}的磁盘使用率{{ $value }}将达到最大限制 | 有两种方案:
|
注意:组件的告警策略不同共用,每个组件需要设置不同的告警阈值。