文档

容器监控Pro版

更新时间:

容器监控Pro版提供基础指标存储周期90天,托管Prometheus采集器,内置丰富的监控大盘,提供容器服务各组件的默认告警规则,额外提供Remote Write和数据投递能力(通过EventBridge)。

前提条件

已开通Pro版计费

接入时选择容器监控Pro版

  1. 接入中心页面,选择容器集群监控

  2. 容器集群监控面板,选择需要接入的容器服务集群,然后选择版本为容器监控Pro版,最后单击确定

基础版升级为容器监控Pro版

重要
  • 升级为容器监控Pro版后不支持降级至容器监控基础版。

  • 目前仅支持ACK集群Pro版。

  1. 接入管理页面,选择已接入环境 > 容器环境

  2. 单击待升级的容器监控操作列下的升级。在对话框中,单击确认

容器监控Pro版支持大盘

类型

大盘名称

总览

集群监控概览

集群Namespace大盘

集群核心组件

ACK Pro API server

ACK Pro ETCD

ACK Pro Scheduler

节点监控

节点池概览

集群节点监控详情

应用监控

无状态应用监控

有状态应用监控

守护进程集应用监控

集群Pod监控

网络监控

CoreDNS组件监控

集群Ingress流量监控

存储监控

CSI存储组件监控-集群维度

CSI存储组件监控-节点维度

Pod IO Monitoring (Pod Level)

Frontend Storage IO Monitoring (Cluster Level)

GPU 监控

集群GPU监控-集群维度

集群GPU监控-节点维度

集群GPU监控-应用Pod维度

成本分析/资源优化

资源画像

其他

Backend Storage IO Monitoring (Cluster Level)

k8s-reclaimed-resource

集群Prometheus自身监控

Virtual Node(ECI) Overview

默认告警规则

告警规则名称/ID

告警分组

模板

节点 CPU 使用率大于75%

节点

节点 {{ $labels.instance }} CPU 使用率大于 75%,当前 CPU 使用率 {{ printf "%.2f" $value }}%

节点 CPU 使用率大于85%

节点

节点 {{ $labels.instance }} CPU 使用率大于 85%,当前 CPU 使用率 {{ printf "%.2f" $value }}%

节点内存使用率大于75%

节点

节点 {{ $labels.instance }} 内存使用率大于 75%,当前内存使用率 {{ printf "%.2f" $value }}%

节点内存使用率大于85%

节点

节点 {{ $labels.instance }} 内存使用率大于 85%,当前内存使用率 {{ printf "%.2f" $value }}%

节点状态异常

节点

节点 {{$labels.node}} 处于不可用状态超过 10 分钟

磁盘使用率大于95%

节点

节点 {{ $labels.instance }} 磁盘 {{ $labels.device }} 使用率超过 95%,当前磁盘使用率 {{ printf "%.2f" $value }}%

Deployment Pod 可用率小于50%

工作负载

命名空间: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 当前不可用 Pod 数 {{ $value }}

Job 执行失败

工作负载

命名空间: {{$labels.namespace}}/Job: {{$labels.job_name}} 执行失败

Pod 启动超时失败

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超过15分钟未启动成功,等待原因 {{$labels.reason}}

Pod 状态异常

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 处于{{$labels.phase}}状态持续超过10分钟

Pod 频繁重启

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分钟内重启超过{{ $labels.metrics_params_value}}次,当前重启 {{ $value }}次

容器 CPU 使用率超过85%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 当前值{{ printf "%.2f" $value }}%

容器 CPU 使用率超过75%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 当前值{{ printf "%.2f" $value }}%

容器内存使用率超过75%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 75%, 当前值{{ printf "%.2f" $value }}%

容器内存使用率超过85%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 85%, 当前值{{ printf "%.2f" $value }}%