使用容器监控 Pro 版

可观测监控 Prometheus 版提供了 Prometheus 托管服务和容器监控服务。容器监控服务产生容器监控费用,容器监控费用包括监控集群规模费用和 Prometheus 实例费用。容器监控服务分为2个版本,容器监控基础版和容器监控 Pro 版。本文介绍了容器监控 Pro 版使用操作、计费说明、功能说明、支持大盘、默认告警规则等。

支持开启容器监控 Pro 版的集群类型

  • ACK托管集群Pro

  • ACK灵骏集群

  • ACK专有版集群

前提条件

容器监控 Pro 版服务依赖可观测监控 Prometheus 版,需要先开通可观测监控 Prometheus 版(按写入量计费开通链接,按上报量计费开通连接),再开通容器监控 Pro 版

容器监控 Pro 版计费说明

计费项

计费说明

计费方式

计费周期

监控集群规模费用

根据容器集群节点(Node)规模换算 OCU 用量,每10个集群节点换算为1个 OCU。

说明

OCU:可观测资源额度(Observability Capacity Unit)是阿里云云原生可观测推出的新版计费单位,可根据每小时资源使用情况自动统计 OCU 用量,OCU的定价为0.15元/个

按量付费:日容器集群规模费用=每小时 OCU 个数累加求和 * OCU 单价

说明

每小时 OCU 个数 = 当前计费周期内节点最大值除以10 后向上取整

计费周期为每小时,可观测监控 Prometheus 版会在00:00后统计前一天每小时的集群节点数最大值,然后按计费规则计算每小时 OCU 个数,通过累计每小时 OCU 个数计算前一天的总 OCU 量,乘以 OCU 单价,按天出容器集群规模监控费用。

Prometheus 实例费用

请参见Prometheus 实例计费

如何使用容器监控 Pro 版

方式一:接入时选择容器监控 Pro 版

  1. 接入中心页面,选择容器集群监控

  2. 容器集群监控面板,选择需要接入的容器服务集群,然后选择版本为容器监控Pro,然后单击确定63

方式二:基础版升级为容器监控 Pro 版

重要

升级为容器监控 Pro 版后不支持降级至容器监控基础版。

  1. 接入管理页面,选择已接入环境 > 容器环境

  2. 单击待升级的容器监控操作列下的升级。在对话框中,单击确认62e

基础版与 Pro 版区别

类别

基础版

Pro 版

容器集群基础指标存储周期

7

90

Prometheus采集器

用户集群内部署 Agent(默认单副本占用集群资源3 Core,4 GB),需自行管理。

提供托管采集 Agent,用户不再承担 Agent 的资源成本,提供生产级SLA 99.95%。

监控大盘

内置基础的监控大盘。

内置丰富的监控大盘。

容器监控Pro版支持大盘

类型

大盘名称

监控概览

集群监控概览

集群 Namespace 大盘

集群核心组件

ACK Pro API server

ACK Pro ETCD

ACK Pro Scheduler

ACK Pro Cloud Controller Manager

ACK Pro Kube Controller Manager

节点监控

节点池概览

集群节点监控详情

应用监控

无状态应用监控

有状态应用监控

守护进程集应用监控

集群 Pod 监控

网络监控

CoreDNS 组件监控

集群 Ingress 流量监控

存储监控

CSI 存储组件监控-集群维度

CSI 存储组件监控-节点维度

Pod IO Monitoring (Pod Level)

Frontend Storage IO Monitoring (Cluster Level)

GPU 监控

集群 GPU 监控-集群维度

集群 GPU 监控-节点维度

集群 GPU 监控-应用 Pod 维度

成本分析/资源优化

资源画像

其他

Backend Storage IO Monitoring (Cluster Level)

k8s-reclaimed-resource

集群 Prometheus 自身监控

Virtual Node(ECI) Overview

默认告警规则

告警规则名称/ID

告警分组

模板

节点 CPU 使用率大于75%

节点

节点 {{ $labels.instance }} CPU 使用率大于 75%,当前 CPU 使用率 {{ printf "%.2f" $value }}%

节点 CPU 使用率大于85%

节点

节点 {{ $labels.instance }} CPU 使用率大于 85%,当前 CPU 使用率 {{ printf "%.2f" $value }}%

节点内存使用率大于75%

节点

节点 {{ $labels.instance }} 内存使用率大于 75%,当前内存使用率 {{ printf "%.2f" $value }}%

节点内存使用率大于85%

节点

节点 {{ $labels.instance }} 内存使用率大于 85%,当前内存使用率 {{ printf "%.2f" $value }}%

节点状态异常

节点

节点 {{$labels.node}} 处于不可用状态超过 10 分钟

磁盘使用率大于95%

节点

节点 {{ $labels.instance }} 磁盘 {{ $labels.device }} 使用率超过 95%,当前磁盘使用率 {{ printf "%.2f" $value }}%

Deployment Pod 可用率小于50%

工作负载

命名空间: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 当前不可用 Pod 数 {{ $value }}

Job 执行失败

工作负载

命名空间: {{$labels.namespace}}/Job: {{$labels.job_name}} 执行失败

Pod 启动超时失败

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超过15分钟未启动成功,等待原因 {{$labels.reason}}

Pod 状态异常

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 处于{{$labels.phase}}状态持续超过10分钟

Pod 频繁重启

工作负载

命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分钟内重启超过{{ $labels.metrics_params_value}}次,当前重启 {{ $value }}次

容器 CPU 使用率超过85%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 当前值{{ printf "%.2f" $value }}%

容器 CPU 使用率超过75%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 当前值{{ printf "%.2f" $value }}%

容器内存使用率超过75%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 75%, 当前值{{ printf "%.2f" $value }}%

容器内存使用率超过85%

工作负载

命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 85%, 当前值{{ printf "%.2f" $value }}%