可观测监控 Prometheus 版提供了 Prometheus 托管服务和容器监控服务。容器监控服务产生容器监控费用,容器监控费用包括监控集群规模费用和 Prometheus 实例费用。容器监控服务分为2个版本,容器监控基础版和容器监控 Pro 版。本文介绍了容器监控 Pro 版使用操作、计费说明、功能说明、支持大盘、默认告警规则等。
支持开启容器监控 Pro 版的集群类型
ACK托管集群Pro版
ACK灵骏集群
ACK专有版集群
前提条件
容器监控 Pro 版服务依赖可观测监控 Prometheus 版,需要先开通可观测监控 Prometheus 版(按写入量计费开通链接,按上报量计费开通连接),再开通容器监控 Pro 版。
容器监控 Pro 版计费说明
计费项 | 计费说明 | 计费方式 | 计费周期 |
监控集群规模费用 | 根据容器集群节点(Node)规模换算 OCU 用量,每10个集群节点换算为1个 OCU。 说明 OCU:可观测资源额度(Observability Capacity Unit)是阿里云云原生可观测推出的新版计费单位,可根据每小时资源使用情况自动统计 OCU 用量,OCU的定价为0.15元/个。 | 按量付费:日容器集群规模费用=每小时 OCU 个数累加求和 * OCU 单价 说明 每小时 OCU 个数 = 当前计费周期内节点最大值除以10 后向上取整 | 计费周期为每小时,可观测监控 Prometheus 版会在00:00后统计前一天每小时的集群节点数最大值,然后按计费规则计算每小时 OCU 个数,通过累计每小时 OCU 个数计算前一天的总 OCU 量,乘以 OCU 单价,按天出容器集群规模监控费用。 |
Prometheus 实例费用 | 请参见Prometheus 实例计费。 |
如何使用容器监控 Pro 版
方式一:接入时选择容器监控 Pro 版
在接入中心页面,选择容器集群监控。
在容器集群监控面板,选择需要接入的容器服务集群,然后选择版本为容器监控Pro版,然后单击确定。
方式二:基础版升级为容器监控 Pro 版
升级为容器监控 Pro 版后不支持降级至容器监控基础版。
在接入管理页面,选择已接入环境 > 容器环境。
单击待升级的容器监控操作列下的升级。在对话框中,单击确认。
基础版与 Pro 版区别
类别 | 基础版 | Pro 版 |
容器集群基础指标存储周期 | 7天 | 90天 |
Prometheus采集器 | 用户集群内部署 Agent(默认单副本占用集群资源3 Core,4 GB),需自行管理。 | 提供托管采集 Agent,用户不再承担 Agent 的资源成本,提供生产级SLA 99.95%。 |
监控大盘 | 内置基础的监控大盘。 | 内置丰富的监控大盘。 |
容器监控Pro版支持大盘
类型 | 大盘名称 |
监控概览 | 集群监控概览 |
集群 Namespace 大盘 | |
集群核心组件 | ACK Pro API server |
ACK Pro ETCD | |
ACK Pro Scheduler | |
ACK Pro Cloud Controller Manager | |
ACK Pro Kube Controller Manager | |
节点监控 | 节点池概览 |
集群节点监控详情 | |
应用监控 | 无状态应用监控 |
有状态应用监控 | |
守护进程集应用监控 | |
集群 Pod 监控 | |
网络监控 | CoreDNS 组件监控 |
集群 Ingress 流量监控 | |
存储监控 | CSI 存储组件监控-集群维度 |
CSI 存储组件监控-节点维度 | |
Pod IO Monitoring (Pod Level) | |
Frontend Storage IO Monitoring (Cluster Level) | |
GPU 监控 | 集群 GPU 监控-集群维度 |
集群 GPU 监控-节点维度 | |
集群 GPU 监控-应用 Pod 维度 | |
成本分析/资源优化 | 资源画像 |
其他 | Backend Storage IO Monitoring (Cluster Level) |
k8s-reclaimed-resource | |
集群 Prometheus 自身监控 | |
Virtual Node(ECI) Overview |
默认告警规则
告警规则名称/ID | 告警分组 | 模板 |
节点 CPU 使用率大于75% | 节点 | 节点 {{ $labels.instance }} CPU 使用率大于 75%,当前 CPU 使用率 {{ printf "%.2f" $value }}% |
节点 CPU 使用率大于85% | 节点 | 节点 {{ $labels.instance }} CPU 使用率大于 85%,当前 CPU 使用率 {{ printf "%.2f" $value }}% |
节点内存使用率大于75% | 节点 | 节点 {{ $labels.instance }} 内存使用率大于 75%,当前内存使用率 {{ printf "%.2f" $value }}% |
节点内存使用率大于85% | 节点 | 节点 {{ $labels.instance }} 内存使用率大于 85%,当前内存使用率 {{ printf "%.2f" $value }}% |
节点状态异常 | 节点 | 节点 {{$labels.node}} 处于不可用状态超过 10 分钟 |
磁盘使用率大于95% | 节点 | 节点 {{ $labels.instance }} 磁盘 {{ $labels.device }} 使用率超过 95%,当前磁盘使用率 {{ printf "%.2f" $value }}% |
Deployment Pod 可用率小于50% | 工作负载 | 命名空间: {{$labels.namespace}} / Deployment: {{$labels.deployment}} Pod 可用率小于 50%, 当前不可用 Pod 数 {{ $value }} |
Job 执行失败 | 工作负载 | 命名空间: {{$labels.namespace}}/Job: {{$labels.job_name}} 执行失败 |
Pod 启动超时失败 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}}超过15分钟未启动成功,等待原因 {{$labels.reason}} |
Pod 状态异常 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} 处于{{$labels.phase}}状态持续超过10分钟 |
Pod 频繁重启 | 工作负载 | 命名空间: {{$labels.namespace}}/Pod: {{$labels.pod_name}} {{$labels.metrics_params_time}}分钟内重启超过{{ $labels.metrics_params_value}}次,当前重启 {{ $value }}次 |
容器 CPU 使用率超过85% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU 使用率大于 85%, 当前值{{ printf "%.2f" $value }}% |
容器 CPU 使用率超过75% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} CPU使用率大于 75%, 当前值{{ printf "%.2f" $value }}% |
容器内存使用率超过75% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 75%, 当前值{{ printf "%.2f" $value }}% |
容器内存使用率超过85% | 工作负载 | 命名空间: {{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器: {{$labels.container}} 内存使用率大于 85%, 当前值{{ printf "%.2f" $value }}% |