kube-scheduler组件监控指标及大盘使用说明-容器服务 Kubernetes 版 ACK(ACK)-阿里云帮助中心

kube-scheduler组件是Kubernetes集群的默认调度器，负责将Pod调度到合适的集群节点上运行。本文介绍kube-scheduler组件的监控指标清单、大盘使用指导以及常见指标异常解析。

使用前须知

操作入口

指标清单

指标是组件对外透出状态和参数的方式之一，kube-scheduler组件使用的指标清单如下。

指标清单	类型	说明
scheduler_scheduler_cache_size	Gauge	调度器缓存中节点、Pod和AssumedPod（假定要调度的Pod）的数量。
scheduler_pending_pods	Gauge	Pending Pod的数量。队列种类如下： unschedulable：不可调度的Pod数量。 backoff：backoffQ的Pod数量，即因为某种原因暂时不能被调度的Pod数量。 active：activeQ的Pod数量，即准备就绪并等待被调度的Pod数量。
scheduler_pod_scheduling_attempts_bucket	Histogram	调度器尝试成功调度Pod的次数，Bucket阈值为`{1、2、4、8、16}`。
memory_utilization_byte	Gauge	内存使用量。单位：字节（Byte）。
cpu_utilization_core	Gauge	CPU使用量。单位：核（Core）。
resource_utilization_level	Gauge	资源使用水位。 resource：资源类型，包括 cpu 和 memory。 utilization_level：水位等级，high（使用率 ≥80%）或 normal（使用率 <80%）。 container：目标容器。包括 kube-apiserver、kube-scheduler、kube-controller-manager、cloud-controller-manager 和 etcd。
rest_client_requests_total	Counter	从状态值（Status Code）、方法（Method）和主机（Host）维度分析HTTP请求数。
rest_client_request_duration_seconds_bucket	Histogram	从方法（Verb）和URL维度分析HTTP请求时延。

说明

如下资源使用率指标已废弃，请及时去除依赖该指标的告警和监控。

cpu_utilization_ratio：CPU使用率。
memory_utilization_ratio：内存使用率。

请使用resource_utilization_level指标做资源使用水位相关的告警和监控，该指标在灰度开放中。如果内存和CPU资源水位相关看板不可见，请先升级监控组件再升级托管探针。

大盘使用指导

大盘基于组件指标和相关PromQL绘制，大盘可观测性展示和功能解析如下。

概览

可观测性展示

功能解析

指标清单	PromQL	说明
Scheduler Pending Pods	scheduler_pending_pods{job="ack-scheduler"}	Pending Pod的数量。队列种类如下： unschedulable：不可调度的Pod数量。 backoff：backoffQ的Pod数量，即因为某种原因暂时不能被调度的Pod数量。 active：activeQ的Pod数量，即准备就绪并等待被调度的Pod数量。
Scheduler 尝试成功调度Pod次数	histogram_quantile($quantile, sum(rate(scheduler_pod_scheduling_attempts_bucket{job="ack-scheduler"}[$interval])) by (pod, le))	调度器尝试调度Pod的次数。Bucket阈值为`{1、2、4、8、16}`。
Scheduler 缓存数据统计	scheduler_scheduler_cache_size{job="ack-scheduler",type="nodes"} scheduler_scheduler_cache_size{job="ack-scheduler",type="pods"} scheduler_scheduler_cache_size{job="ack-scheduler",type="assumed_pods"}	调度器缓存中Node、Pod和AssumedPod的数量。

资源

可观测性展示

功能解析

指标清单	PromQL	说明
内存使用量	memory_utilization_byte{container="kube-scheduler"}	内存使用量。单位：字节。
CPU使用量	cpu_utilization_core{container="kube-scheduler"}*1000	CPU使用量。单位：毫核。
内存资源水位	resource_utilization_level{resource="memory",container="kube-scheduler",utilization_level="high"} resource_utilization_level{resource="memory",container="kube-scheduler",utilization_level="normal"}	当resource_utilization_level{utilization_level="high",...} == 1，表明容器资源利用率（水位）>= 80%。当resource_utilization_level{utilization_level="normal",...} == 1，表明容器资源利用率（水位）< 80%。
CPU资源水位	resource_utilization_level{resource="cpu",container="kube-scheduler",utilization_level="high"} resource_utilization_level{resource="cpu",container="kube-scheduler",utilization_level="normal"}

Kube API

可观测性展示

功能解析

指标清单	PromQL	说明
Kube API 请求QPS	sum(rate(rest_client_requests_total{job="ack-scheduler",code=~"2.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-scheduler",code=~"3.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-scheduler",code=~"4.."}[$interval])) by (method,code) sum(rate(rest_client_requests_total{job="ack-scheduler",code=~"5.."}[$interval])) by (method,code)	kube-scheduler对kube-apiserver组件发起的HTTP请求，从方法（Method）和返回值（Code) 维度分析。
Kube API 请求时延	histogram_quantile($quantile, sum(rate(rest_client_request_duration_seconds_bucket{job="ack-scheduler"}[$interval])) by (verb,url,le))	kube-scheduler对kube-apiserver组件发起的HTTP请求时延，从方法（Verb）和请求URL维度分析。

常见指标异常

如果组件的常见指标异常，请对照下文的情况说明排查是否为预期内情况。

存活调度器Pod数量

正常情况	异常情况	异常说明	建议
存活调度器Pod数量大于等于1。	存活调度器数量为0。	当前集群无可用调度器。	查看调度器相关的Deployment或者StatefulSet是否存在。定位调度器Pod下线是否为预期内的人为操作。

Pending Pod数量

正常情况	异常情况	异常说明	建议
Pod调度速度较稳定，且维持在较低数值。	Unschedulable队列中的Pod数量持续增加。 Unschedulable队列中的Pod数量在其他Pod完成调度后仍然没有减少。	当前集群中Pod的资源请求不合理，或节点资源配置不足。	查看节点资源是否满足Pod需求。查看Pod是否设置了无法满足的节点亲和属性。

成功调度一个Pod的尝试次数

正常情况	异常情况	异常说明	建议
Pod能够在几次尝试后正常被调度到节点上。	Pod在多次尝试后依然无法成功调度。	当前集群中Pod的资源请求不合理，或节点资源配置不足。	查看节点资源是否满足Pod的需求。查看Pod是否设置了无法满足的节点亲和属性。

使用前须知

操作入口

指标清单

大盘使用指导

概览

可观测性展示

功能解析

资源

可观测性展示

功能解析

Kube API

可观测性展示

功能解析

常见指标异常

存活调度器Pod数量

Pending Pod数量

成功调度一个Pod的尝试次数

相关文档