集群监控告警说明

集群监控

进入【集群管理-集群监控】可以查看集群整体的监控大盘。

1

上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。

集群告警

集群告警策略

集群告警主要包含所有K8s内核以及集群节点相关的告警。

手动添加集群告警策略时,用户进入集群管理-集群告警-告警策略页面。策略添加/编辑方式与上文中的组件告警策略的方式相同。

告警项说明

  • Kubernetes 资源相关

告警名称

告警描述

CPUThrottlingHigh

查出最近5分钟,超过25%的 CPU 执行周期受到限制的容器

KubeCPUOvercommit

集群 CPU 过度使用。CPU 已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的 CPU 总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配

KubeMemoryOvercommit

集群内存过度使用。内存已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的内存总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配

KubeCPUQuotaOvercommit

集群CPU是否超分。查看 CPU 资源分配的额度是否超过集群群总额度

KubeMemoryQuotaOvercommit

集群超分内存,查看内存资源分配的额度是否超过集群总额度

KubeMEMQuotaExceeded

命名空间级内存资源使用的比例,关乎资源配额

KubeCPUQuotaExceeded

命名空间级 CPU 资源使用的比例,关乎资源配额

  • Kubernetes 存储相关

告警名称

告警描述

KubePersistentVolumeFillingUp

PVC容量监控

KubePersistentVolumeFillingUp

磁盘空间耗尽预测

KubePersistentVolumeErrors

PV 状态监控

  • kubernetes system相关

告警名称

告警描述

KubeVersionMismatch

组件版本与当前集群版本是否有差异

KubeClientErrors

客户端遇到API错误,错误率

  • ApiServer 相关

告警名称

告警描述

KubeAPILatencyHigh

请求延时

KubeAPIErrorsHigh

APIServer 请求错误率

KubeClientCertificateExpiration

APIServer 请求错误率

AggregatedAPIErrors

自定义注册的api service 服务可用性监控

AggregatedAPIDown

自定义注册的APIdown

KubeAPIDown

APIserver 失联

  • kubelet 相关

告警名称

告警描述

KubeNodeNotReady

节点不是就绪状态

KubeNodeUnreachable

节点状态为 Unreachable

KubeletTooManyPods

节点运行过多pod

KubeNodeReadinessFlapping

查看集群内节点状态改变的频率

KubeletPlegDurationHigh

PLEG持续时间过长

KubeletPodStartUpLatencyHigh

Pod启动延迟过高

KubeletDown

kubelet 服务down

  • scheduler 相关

告警名称

告警描述

KubeSchedulerDown

KubeScheduler 失联

  • controller manager 相关

告警名称

告警描述

KubeControllerManagerDown

监测 KubeControllerManager 服务 ,down 或者网络不通

  • general 相关

告警名称

告警描述

TargetDown

部分服务没有 up

  • 网络相关

告警名称

告警描述

NodeNetworkInterfaceFlapping

节点网卡状态改变

  • 存储相关

告警名称

告警描述

KubePersistentVolumeUsageCritical

块存储PVC容量即将不足

KubePersistentVolumeFullInFourDays

PVC空间耗尽预测

KubePersistentVolumeErrors

PV容量出错

  • 节点监控

告警名称

告警描述

NodeClockNotSynchronising

主机与时间服务器失联

NodeClockSkewDetected

出现时间偏差

NodeHighNumberConntrackEntriesUsed

使用大量Conntrack条目

NodeNetworkReceiveErrs

网卡接收错误量

NodeNetworkTransmitErrs

网卡传输错误量

NodeFilesystemAlmostOutOfFiles

Node文件系统几乎无文件

NodeFilesystemFilesFillingUp

Node文件系统文件即将占满

KubeStateMetricsWatchErrors

Metric Watch出错

KubeStateMetricsListErrors

Metric List出错

  • ETCD监控

告警名称

告警描述

Etcdlived

etcd 存活检测

EtcdCluseterUnavailable

etcd 集群健康检查,down 数量大于集群可允许故障数量

EtcdLeaderCheck

检查 leader

EtcdBackendFsync

etcd io 监测,后端提交延时

EtcdWalFsync

etcd io 监测,文件同步到磁盘延时

EtcdDbSize

检测数据库大小

EtcdGrpc

Grpc 调用速率

  • CoreDNS 相关

告警名称

告警描述

DnsRequest

DNS 查询速率,每分钟查询超过100告警

DnsRequestFailed

异常查询,异常状态码,不是 NOERROR

DnsPanic

DNS Panic,可能收到攻击

  • 应用监控

告警名称

告警描述

KubePodCrashLooping

出现循环崩溃

KubePodNotReady

pod 没有就绪

KubeDeploymentGenerationMismatch

deploymet 部署失败

KubeDeploymentReplicasMismatch

deployment副本数预期未达成

KubeStatefulSetGenerationMismatch

StatefulSet失败且未回滚

KubeStatefulSetReplicasMismatch

StatefulSet副本数预期未达成

KubeStatefulSetUpdateNotRolledOut

StatefulSet 更新失败且未回滚

KubeDaemonSetRolloutStuck

DaemonSet 部分Pod准备就绪

KubeContainerWaiting

监测哪些容器是在等待状态的

KubeDaemonSetNotScheduled

DaemonSet 未被调度成功

KubeDaemonSetMisScheduled

DaemonSet 运行在不该运行的节点上面

参考

  1. https://toscode.gitee.com/leonzhangxf/kube-applications/blob/master/prometheus/manifests/prometheus-rules.yaml

  2. htts://www.jianshu.com/p/af0f98fe7699

阿里云首页 云原生应用交付平台 相关技术圈