容器监控Pro版提供基础指标存储周期90天,托管Prometheus采集器,内置丰富的监控大盘,提供容器服务各组件的默认告警规则,额外提供Remote Write和数据投递能力(通过EventBridge)。
前提条件
接入时选择容器监控Pro版
在接入中心页面,选择容器集群监控。
在容器集群监控面板,选择需要接入的容器服务集群,然后选择版本为容器监控Pro版,最后单击确定。
基础版升级为容器监控Pro版
升级为容器监控Pro版后不支持降级至容器监控基础版。
目前仅支持ACK集群Pro版。
在接入管理页面,选择已接入环境 > 容器环境。
单击待升级的容器监控操作列下的升级。在对话框中,单击确认。
容器监控Pro版支持大盘
类型 | 大盘名称 |
监控概览 | 集群监控概览 |
集群Namespace大盘 | |
集群核心组件 | ACK Pro API server |
ACK Pro ETCD | |
ACK Pro Scheduler | |
ACK Pro Cloud Controller Manager | |
ACK Pro Kube Controller Manager | |
节点监控 | 节点池概览 |
集群节点监控详情 | |
应用监控 | 无状态应用监控 |
有状态应用监控 | |
守护进程集应用监控 | |
集群Pod监控 | |
网络监控 | CoreDNS组件监控 |
集群Ingress流量监控 | |
存储监控 | CSI存储组件监控-集群维度 |
CSI存储组件监控-节点维度 | |
Pod IO Monitoring (Pod Level) | |
Frontend Storage IO Monitoring (Cluster Level) | |
GPU 监控 | 集群GPU监控-集群维度 |
集群GPU监控-节点维度 | |
集群GPU监控-应用Pod维度 | |
成本分析/资源优化 | 资源画像 |
其他 | Backend Storage IO Monitoring (Cluster Level) |
k8s-reclaimed-resource | |
集群Prometheus自身监控 | |
Virtual Node(ECI) Overview |
默认告警规则
告警规则名称/ID | 告警分组 | 模板 |
节点 CPU 使用率大于75% | 节点 | 节点 {{ $labels.instance }} CPU 使用率大于 75%,当前 CPU 使用率 {{ printf "%.2f" $value }}% |
节点 CPU 使用率大于85% | 节点 | 节点 {{ $labels.instance }} CPU 使用率大于 85%,当前 CPU 使用率 {{ printf "%.2f" $value }}% |
节点内存使用率大于75% | 节点 | 节点 {{ $labels.instance }} 内存使用率大于 75%,当前内存使用率 {{ printf "%.2f" $value }}% |
节点内存使用率大于85% | 节点 | 节点 {{ $labels.instance }} 内存使用率大于 85%,当前内存使用率 {{ printf "%.2f" $value }}% |
节点状态异常 | 节点 | 节点 {{$labels.node}} 处于不可用状态超过 10 分钟 |
磁盘使用率大于95% | 节点 | 节点 {{ $labels.instance }} 磁盘 {{ $labels.device }} 使用率超过 95%,当前磁盘使用率 {{ printf "%.2f" $value }}% |
Deployment Pod 可用率小于50% | 工作负载 | 命名空间: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 当前不可用 Pod 数 {{ $value }} |
Job 执行失败 | 工作负载 | 命名空间: {{$labels.namespace}}/Job: {{$labels.job_name}} 执行失败 |
Pod 启动超时失败 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超过15分钟未启动成功,等待原因 {{$labels.reason}} |
Pod 状态异常 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 处于{{$labels.phase}}状态持续超过10分钟 |
Pod 频繁重启 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分钟内重启超过{{ $labels.metrics_params_value}}次,当前重启 {{ $value }}次 |
容器 CPU 使用率超过85% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 当前值{{ printf "%.2f" $value }}% |
容器 CPU 使用率超过75% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 当前值{{ printf "%.2f" $value }}% |
容器内存使用率超过75% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 75%, 当前值{{ printf "%.2f" $value }}% |
容器内存使用率超过85% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 85%, 当前值{{ printf "%.2f" $value }}% |