集群监控告警说明
集群监控
进入【集群管理-集群监控】可以查看集群整体的监控大盘。
上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。
集群告警
集群告警策略
集群告警主要包含所有K8s内核以及集群节点相关的告警。
手动添加集群告警策略时,用户进入集群管理-集群告警-告警策略页面。策略添加/编辑方式与上文中的组件告警策略的方式相同。
告警项说明
Kubernetes 资源相关
告警名称 | 告警描述 |
CPUThrottlingHigh | 查出最近5分钟,超过25%的 CPU 执行周期受到限制的容器 |
KubeCPUOvercommit | 集群 CPU 过度使用。CPU 已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的 CPU 总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配 |
KubeMemoryOvercommit | 集群内存过度使用。内存已经过度使用无法容忍节点故障,节点资源使用的总量超过节点的内存总量,所以如果有节点故障将影响集群资源运行因为所需资源将无法被分配 |
KubeCPUQuotaOvercommit | 集群CPU是否超分。查看 CPU 资源分配的额度是否超过集群群总额度 |
KubeMemoryQuotaOvercommit | 集群超分内存,查看内存资源分配的额度是否超过集群总额度 |
KubeMEMQuotaExceeded | 命名空间级内存资源使用的比例,关乎资源配额 |
KubeCPUQuotaExceeded | 命名空间级 CPU 资源使用的比例,关乎资源配额 |
Kubernetes 存储相关
告警名称 | 告警描述 |
KubePersistentVolumeFillingUp | PVC容量监控 |
KubePersistentVolumeFillingUp | 磁盘空间耗尽预测 |
KubePersistentVolumeErrors | PV 状态监控 |
kubernetes system相关
告警名称 | 告警描述 |
KubeVersionMismatch | 组件版本与当前集群版本是否有差异 |
KubeClientErrors | 客户端遇到API错误,错误率 |
ApiServer 相关
告警名称 | 告警描述 |
KubeAPILatencyHigh | 请求延时 |
KubeAPIErrorsHigh | APIServer 请求错误率 |
KubeClientCertificateExpiration | APIServer 请求错误率 |
AggregatedAPIErrors | 自定义注册的api service 服务可用性监控 |
AggregatedAPIDown | 自定义注册的APIdown |
KubeAPIDown | APIserver 失联 |
kubelet 相关
告警名称 | 告警描述 |
KubeNodeNotReady | 节点不是就绪状态 |
KubeNodeUnreachable | 节点状态为 Unreachable |
KubeletTooManyPods | 节点运行过多pod |
KubeNodeReadinessFlapping | 查看集群内节点状态改变的频率 |
KubeletPlegDurationHigh | PLEG持续时间过长 |
KubeletPodStartUpLatencyHigh | Pod启动延迟过高 |
KubeletDown | kubelet 服务down |
scheduler 相关
告警名称 | 告警描述 |
KubeSchedulerDown | KubeScheduler 失联 |
controller manager 相关
告警名称 | 告警描述 |
KubeControllerManagerDown | 监测 KubeControllerManager 服务 ,down 或者网络不通 |
general 相关
告警名称 | 告警描述 |
TargetDown | 部分服务没有 up |
网络相关
告警名称 | 告警描述 |
NodeNetworkInterfaceFlapping | 节点网卡状态改变 |
存储相关
告警名称 | 告警描述 |
KubePersistentVolumeUsageCritical | 块存储PVC容量即将不足 |
KubePersistentVolumeFullInFourDays | PVC空间耗尽预测 |
KubePersistentVolumeErrors | PV容量出错 |
节点监控
告警名称 | 告警描述 |
NodeClockNotSynchronising | 主机与时间服务器失联 |
NodeClockSkewDetected | 出现时间偏差 |
NodeHighNumberConntrackEntriesUsed | 使用大量Conntrack条目 |
NodeNetworkReceiveErrs | 网卡接收错误量 |
NodeNetworkTransmitErrs | 网卡传输错误量 |
NodeFilesystemAlmostOutOfFiles | Node文件系统几乎无文件 |
NodeFilesystemFilesFillingUp | Node文件系统文件即将占满 |
KubeStateMetricsWatchErrors | Metric Watch出错 |
KubeStateMetricsListErrors | Metric List出错 |
ETCD监控
告警名称 | 告警描述 |
Etcdlived | etcd 存活检测 |
EtcdCluseterUnavailable | etcd 集群健康检查,down 数量大于集群可允许故障数量 |
EtcdLeaderCheck | 检查 leader |
EtcdBackendFsync | etcd io 监测,后端提交延时 |
EtcdWalFsync | etcd io 监测,文件同步到磁盘延时 |
EtcdDbSize | 检测数据库大小 |
EtcdGrpc | Grpc 调用速率 |
CoreDNS 相关
告警名称 | 告警描述 |
DnsRequest | DNS 查询速率,每分钟查询超过100告警 |
DnsRequestFailed | 异常查询,异常状态码,不是 NOERROR |
DnsPanic | DNS Panic,可能收到攻击 |
应用监控
告警名称 | 告警描述 |
KubePodCrashLooping | 出现循环崩溃 |
KubePodNotReady | pod 没有就绪 |
KubeDeploymentGenerationMismatch | deploymet 部署失败 |
KubeDeploymentReplicasMismatch | deployment副本数预期未达成 |
KubeStatefulSetGenerationMismatch | StatefulSet失败且未回滚 |
KubeStatefulSetReplicasMismatch | StatefulSet副本数预期未达成 |
KubeStatefulSetUpdateNotRolledOut | StatefulSet 更新失败且未回滚 |
KubeDaemonSetRolloutStuck | DaemonSet 部分Pod准备就绪 |
KubeContainerWaiting | 监测哪些容器是在等待状态的 |
KubeDaemonSetNotScheduled | DaemonSet 未被调度成功 |
KubeDaemonSetMisScheduled | DaemonSet 运行在不该运行的节点上面 |