节点监控告警说明

更新时间: 2023-04-12 10:10:53

查看节点监控

集群运维-节点管理-详情查看。

1

可以查看节点级别的监控信息,包括:CPU使用率,CPU配额,存储使用率等。

节点告警

节点告警主要包含所有节点相关的告警,没有单独的节点告警页面。

用户进入集群管理-集群告警-告警策略页面,节点相关的也在这里面。

image

告警项说明

kubelet 相关

报警名称

报警解析

KubeNodeNotReady

节点不是就绪状态

KubeNodeUnreachable

节点状态为 Unreachable

KubeletTooManyPods

节点运行过多pod

KubeNodeReadinessFlapping

查看集群内节点状态改变的频率

KubeletPlegDurationHigh

PLEG持续时间过长

KubeletPodStartUpLatencyHigh

Pod启动延迟过高

KubeletDown

kubelet 服务down

网络相关

报警名称

报警解析

NodeNetworkInterfaceFlapping

节点网卡状态改变

  • 节点监控

报警名称

报警解析

NodeClockNotSynchronising

主机与时间服务器失联

NodeClockSkewDetected

出现时间偏差

NodeHighNumberConntrackEntriesUsed

使用大量Conntrack条目

NodeNetworkReceiveErrs

网卡接收错误量

NodeNetworkTransmitErrs

网卡传输错误量

NodeFilesystemAlmostOutOfFiles

Node文件系统几乎无文件

NodeFilesystemFilesFillingUp

Node文件系统文件即将占满

KubeStateMetricsWatchErrors

Metric Watch出错

KubeStateMetricsListErrors

Metric List出错

参考

  1. https://toscode.gitee.com/leonzhangxf/kube-applications/blob/master/prometheus/manifests/prometheus-rules.yaml

  2. htts://www.jianshu.com/p/af0f98fe7699

上一篇: 节点管理 下一篇: 节点运维
阿里云首页 云原生应用交付平台 相关技术圈