kubeapiserver组件监控指标与大盘详解-容器服务 Kubernetes 版 ACK-阿里云

kube-apiserver组件提供了Kubernetes的RESTful API接口，使得外部客户端、集群内的其他组件可以与ACK集群交互。本文介绍kube-apiserver组件的监控指标清单、大盘使用指导以及常见指标异常解析。

使用前须知

操作入口

指标清单

指标是组件对外透出状态和参数的方式之一。kube-apiserver组件使用的指标清单如下。

指标清单	类型	解释
apiserver_request_duration_seconds_bucket	Histogram	该指标用于统计API Server客户端对API Server不同请求的访问时延分布。请求的维度包括： Verb：请求的类型，例如GET、POST、PUT、DELETE等。 Group：API组，即相关API接口的集合，用于扩展Kubernetes API。 Version：API版本，例如v1、v1beta1等。 Resource：请求针对的资源类型，例如Pod、Service、Lease等。 Subresource：资源的子资源，例如Pod详细信息、Pod日志等。 Scope：请求的范围，例如命名空间维度的资源（Namespace-scoped）或集群维度的资源（Cluster-scoped）。 Component：发起请求的组件的名称，例如kube-controller-manager、kube-scheduler、cloud-controller-manager等。 Client：发起请求的客户端，可能是内部组件或外部服务。 API ServerHistogram的Bucket阈值为`{0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 1.25, 1.5, 1.75, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60}`。单位：秒。
apiserver_request_total	Counter	对API Server不同请求的计数。请求的维度包括Verb、Group、Version、Resource、Scope、Component、HTTP contentType、HTTP code（响应的HTTP状态码）和Client。
apiserver_request_no_resourceversion_list_total	Counter	对API Server的请求中参数未配置`resourceVersion`的LIST请求的计数。评估Quorum Read类型的LIST请求可以定位是否存在过多的此类请求以及发起相应请求的客户端，以便优化客户端的请求行为，提高集群性能。请求的维度包括Group、Version、Resource、Scope和Client。
apiserver_current_inflight_requests	Gauge	API Server当前处理的请求数量。请求包括两种： ReadOnly：这类请求不会改变集群的状态，通常为读取资源的操作，例如获取Pods列表、查询节点状态等。 Mutating：这类请求会改变集群的状态，通常为创建、更新或删除资源的操作，例如新建Pod、更新Service配置等。
apiserver_dropped_requests_total	Counter	API Server执行限流策略过程中，主动丢弃掉的请求数。HTTP返回值为`429 'Try again later'`。
etcd_request_duration_seconds_bucket	Histogram	该指标用于统计API Server对etcd请求的访问时延分布。请求的维度包括操作（Operation）和操作对象的类型（Type）。 Bucket阈值为`{0.005, 0.025, 0.05, 0.1, 0.2, 0.4, 0.6, 0.8, 1.0, 1.25, 1.5, 2, 3, 4, 5, 6, 8, 10, 15, 20, 30, 45, 60}`。单位：秒。
apiserver_flowcontrol_request_concurrency_limit	Gauge	APF请求并发限制。表示某个优先级队列的最大并发限制，即该队列理论上允许同时处理的最大请求数，供您了解API Server如何通过流量控制策略将资源分配给不同优先级的队列，从而确保高优先级请求可以及时处理。该指标在Kubernetes 1.30版本变为Deprecated，自1.31版本起移除，1.31及以上版本的集群中建议使用apiserver_flowcontrol_nominal_limit_seats指标代替。
apiserver_flowcontrol_current_executing_requests	Gauge	某个优先级队列中当前正在执行的请求数量，即该队列的实际并发负载，供您了解API Server的实际负载情况，判断是否接近系统最大并发限制，防止过载。
apiserver_flowcontrol_current_inqueue_requests	Gauge	某个优先级队列中当前在队列中等待处理的请求数量，即该队列的请求积压情况，以了解API Server的流量压力以及队列是否过载。
apiserver_flowcontrol_nominal_limit_seats	Gauge	APF 名义并发限制席位数量，即API Server理论上（nominal）的最大并发处理能力，以Seat为单位。供您了解API Server如何通过流量控制策略将资源分配给不同优先级的队列。
apiserver_flowcontrol_current_limit_seats	Gauge	APF 当前并发限制席位数量。表示某个优先级队列的当前并发限制（Current Concurrency Limit），即在动态调整后实际允许的最大并发席位数量，反映当前队列的实际并发能力（可能因系统负载或其他因素而动态变化）。与 nominal_limit_seats 不同，此值可能会受全局流量控制策略影响。
apiserver_flowcontrol_current_executing_seats	Gauge	APF 当前在执行的席位数量，表示某个优先级队列中当前正在执行的请求数对应的席位数量，反映了当前队列中正在消耗的并发资源。供您了解队列的实际负载情况。如果 current_executing_seats 接近 current_limit_seats，表明该队列的并发资源可能即将耗尽。您可以提升API Server的maxMutatingRequestsInflight和maxRequestsInflight的参数取值以优化配置。操作入口及参数取值，请参见自定义Pro版集群的控制面组件参数。
apiserver_flowcontrol_current_inqueue_seats	Gauge	APF当前队列中席位数量，表示某个优先级队列中当前等待处理的请求数对应的席位数量，反映了当前队列中等待处理的请求所占用的资源，以供您了解队列的积压情况。
apiserver_flowcontrol_request_execution_seconds_bucket	Histogram	请求的实际执行时间，记录了请求从开始执行到最终完成所花费的时间。时间区间分布为{0, 0.005, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 15, 30}。单位：秒。
apiserver_flowcontrol_request_wait_duration_seconds_bucket	Histogram	请求在队列中等待的时间分布，记录了请求从进入队列到开始执行之间的等待时间时间区间分布为{0, 0.005, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 15, 30}。单位：秒。
apiserver_flowcontrol_dispatched_requests_total	Counter	成功调度并处理的请求数量，反映了API Server成功处理的请求总数。
apiserver_flowcontrol_rejected_requests_total	Counter	因超出并发限制或队列容量而被拒绝的请求数量。
apiserver_admission_controller_admission_duration_seconds_bucket	Histogram	准入控制器（Admission Controller）的处理延时。标签包括Admission Controller名称、操作（CREATE、UPDATE、CONNECT等）、API资源、操作类型（validate或admit）和请求是否被拒绝（true或false）。 Bucket阈值为`{0.005, 0.025, 0.1, 0.5, 2.5}`。单位：秒。
apiserver_admission_webhook_admission_duration_seconds_bucket	Histogram	准入Webhook（Admission Webhook）的处理延时。标签包括Admission Controller名称、操作（CREATE、UPDATE、CONNECT等）、API资源、操作类型（validate，校验请求的合法性，或admit，在请求合法的情况下，决定是否允许该请求）和请求是否被拒绝（true或false）。 Bucket的阈值为`{0.005, 0.025, 0.1, 0.5, 2.5}`。单位：秒。
apiserver_admission_webhook_admission_duration_seconds_count	Counter	准入Webhook（Admission Webhook）的处理请求统计。标签包括Admission Controller名称、操作（CREATE、UPDATE、CONNECT等）、API资源、操作类型（validate或admit）和请求是否被拒绝（true或false）。
cpu_utilization_core	Gauge	CPU使用量。单位：核（Core）。
memory_utilization_byte	Gauge	内存使用量。单位：字节（Byte）。
up	Gauge	服务可用性。 1：表示服务可用。 0：表示服务不可用。

说明

如下资源使用率指标已废弃，请及时去除依赖该指标的告警和监控。

cpu_utilization_ratio：CPU使用率。
memory_utilization_ratio：内存使用率。

大盘使用指导

大盘基于组件指标和相关PromQL绘制，包括关键指标、概览、资源分析、QPS和时延、准入控制器和Webhook、客户端分析部分。

大盘构成模块如下，常见的使用顺序为：

关键指标：快速查看集群关键指标。
概览：分析API Server的响应时延、当前处理请求数和是否有限流发生。
资源分析：查看托管侧组件的资源水位。
QPS和时延：通过多维度深入分析QPS、RT。
APF限流：根据APF指标确认API Server的请求流量分布、限流状态以及系统性能瓶颈。
注入控制器和Webhook：分析准入控制器和Webhook的QPS、RT。
客户端分析：通过客户端多维度分析QPS。

筛选框

在大盘上方，您可以根据筛选框配置观测API Server请求的Verb、资源（Resource）、分位数（Quantile）和面板使用的PromQL的采样时长（Interval）。

说明

调整分位数（Quantile）时，以0.9为例，表示大盘上Histogram类型指标的采样值的数量占该类型指标总体采样值的90%。分位数为0.9（简称为P90）的指标可以去除采样值占比小的长尾样本的影响，分位数为0.99（简称为P99）的指标会包含长尾样本的影响。

筛选框

以下筛选框可以选择观测的时间段和页面刷新周期。筛选框2

关键指标

可观测性展示

功能解析

名称	PromQL	说明
API QPS	sum(irate(apiserver_request_total[$interval]))	API Server的总QPS。
读请求成功率	sum(irate(apiserver_request_total{code=~"20.*",verb=~"GET\|LIST"}[$interval]))/sum(irate(apiserver_request_total{verb=~"GET\|LIST"}[$interval]))	API Server处理读请求的成功率。
写请求成功率	sum(irate(apiserver_request_total{code=~"20.*",verb!~"GET\|LIST\|WATCH\|CONNECT"}[$interval]))/sum(irate(apiserver_request_total{verb!~"GET\|LIST\|WATCH\|CONNECT"}[$interval]))	API Server处理写请求的成功率。
在处理读请求数量	sum(apiserver_current_inflight_requests{requestKind="readOnly"})	API Server当前在处理的读请求数量。
在处理写请求数量	sum(apiserver_current_inflight_requests{requestKind="mutating"})	API Server当前在处理的写请求数量。
请求限流速率	sum(irate(apiserver_dropped_requests_total[$interval]))	Dropped Request Rate。 API Server限流策略过程中，主动丢弃掉的请求数所占总请求数的比例。

概览

可观测性展示

功能解析

名称	PromQL	说明
GET读请求时延	histogram_quantile($quantile, sum(irate(apiserver_request_duration_seconds_bucket{verb="GET",resource!="",subresource!~"log\|proxy"}[$interval])) by (pod, verb, resource, subresource, scope, le))	展示GET请求的响应时间，维度包括API Server Pod、Verb（GET）、Resources、Scope。
LIST读请求时延	histogram_quantile($quantile, sum(irate(apiserver_request_duration_seconds_bucket{verb="LIST"}[$interval])) by (pod_name, verb, resource, scope, le))	展示LIST请求的响应时间，维度包括API Server Pod、Verb（LIST）、Resources、Scope。
写请求时延	histogram_quantile($quantile, sum(irate(apiserver_request_duration_seconds_bucket{verb!~"GET\|WATCH\|LIST\|CONNECT"}[$interval])) by (cluster, pod_name, verb, resource, scope, le))	展示Mutating请求的响应时间，维度包括API Server Pod、Verb（GET、WATCH、LIST、CONNECT）、Resources、Scope。
在处理读请求数量	apiserver_current_inflight_requests{request_kind="readOnly"}	API Server正在处理的读请求数量。
在处理写请求数量	apiserver_current_inflight_requests{request_kind="mutating"}	API Server正在处理的写请求数量。
请求限流速率	sum(irate(apiserver_dropped_requests_total{request_kind="readOnly"}[$interval])) by (name) sum(irate(apiserver_dropped_requests_total{request_kind="mutating"}[$interval])) by (name)	API Server的限流速率，`No data`或者`0`表示没有限流。

资源分析

可观测性展示

功能解析

名称	PromQL	说明
内存使用量	memory_utilization_byte{container="kube-apiserver"}	API Server的内存使用量。单位：字节。
CPU使用量	cpu_utilization_core{container="kube-apiserver"}*1000	API Server的CPU使用量。单位：毫核。
资源对象数量	max by(resource)(apiserver_storage_objects) max by(resource)(etcd_object_counts)	当ACK为1.22及以上版本时，指标名字为apiserver_storage_objects 当ACK为1.22及以下版本时，指标名字为etcd_object_counts。说明由于兼容性问题，1.22版本中apiserver_storage_objects名称和etcd_object_counts名称均存在。

QPS和时延

可观测性展示

功能解析

名称	PromQL	说明
按Verb维度分析QPS	sum(irate(apiserver_request_total{verb=~"$verb"}[$interval]))by(verb)	按Verb维度，统计单位时间（1s）内的请求QPS。
按Verb+Resource维度分析QPS	sum(irate(apiserver_request_total{verb=~"$verb",resource=~"$resource"}[$interval]))by(verb,resource)	按Verb+Resource维度，统计单位时间（1s）内的请求QPS。
按Verb维度分析请求时延	histogram_quantile($quantile, sum(irate(apiserver_request_duration_seconds_bucket{verb=~"$verb", verb!~"WATCH\|CONNECT",resource!=""}[$interval])) by (le,verb))	按Verb维度，分析请求时延。
按Verb+Resource维度分析请求时延	histogram_quantile($quantile, sum(irate(apiserver_request_duration_seconds_bucket{verb=~"$verb", verb!~"WATCH\|CONNECT", resource=~"$resource",resource!=""}[$interval])) by (le,verb,resource))	按Verb+Resource维度，分析请求时延。
非2xx返回值的读请求QPS	sum(irate(apiserver_request_total{verb=~"GET\|LIST",resource=~"$resource",code!~"2.*"}[$interval])) by (verb,resource,code)	统计非2xx返回值（除成功以外的所有情况，例如4xx、5xx等）的读请求QPS。
非2xx返回值的写请求QPS	sum(irate(apiserver_request_total{verb!~"GET\|LIST\|WATCH",verb=~"$verb",resource=~"$resource",code!~"2.*"}[$interval])) by (verb,resource,code)	统计非2xx返回值（除成功以外的所有情况，例如4xx、5xx等）的写请求QPS。
Apiserver对etcd请求时延	histogram_quantile($quantile, sum(irate(etcd_request_duration_seconds_bucket[$interval])) by (le,operation,type,instance))	统计API Server对etcd的请求时延。

APF限流

说明

APF限流相关指标监控处于灰度发布中。

APF相关指标仅支持1.20及以上版本集群。如需升级，请参见手动升级集群。
APF相关指标大盘还依赖如下组件的升级，请参见组件监控升级说明完成升级：
- 容器集群监控组件：0.06及以上版本。
- ack-arms-prometheus组件：v1.1.31及以上版本。
- 托管探针：v1.1.31及以上版本。

可观测性展示

功能解析

下表中部分指标按PL、Instance、FS维度进行统计。

PL：Priority Level维度，即根据不同优先级进行统计。
Instance：根据API Server实例维度进行统计。
FS：Flow Schema维度，即根据请求分类进行统计。

关于APF及上述维度的详细信息，请参见APF。

名称	PromQL	说明
APF 请求并发限制（维度：PL）	sum by(priority_level) (apiserver_flowcontrol_request_concurrency_limit)	按 PL 或 Instance + PL 维度统计 APF 请求并发限制，即某个优先级队列理论上允许同时处理的最大请求数。 apiserver_flowcontrol_request_concurrency_limit 在Kubernetes 1.30版本变为Deprecated，自1.31版本起移除，1.31及以上版本的集群中建议使用apiserver_flowcontrol_nominal_limit_seats指标代替。
APF 请求并发限制（维度：Instance + PL）	sum by(instance,priority_level) (apiserver_flowcontrol_request_concurrency_limit)
APF 当前执行请求数量（维度：FS + PL）	sum by(flow_schema,priority_level) (apiserver_flowcontrol_current_executing_requests)	按 FS + PL 或 Instance + FS + PL 维度统计 APF 当前正在执行的请求数量。
APF 当前执行请求数量（维度：Instance + FS + PL）	sum by(instance,flow_schema,priority_level)(apiserver_flowcontrol_current_executing_requests)	按 FS + PL 或 Instance + FS + PL 维度统计 APF 当前正在执行的请求数量。
APF当前在队列中待处理请求数量（维度：FS + PL）	sum by(flow_schema,priority_level) (apiserver_flowcontrol_current_inqueue_requests)	按 FS + PL 或 Instance + FS + PL 维度统计当前队列中待处理的请求数量。
APF 当前队列中待处理请求数量（维度：Instance + FS + PL）	sum by(instance,flow_schema,priority_level) (apiserver_flowcontrol_current_inqueue_requests)	按 FS + PL 或 Instance + FS + PL 维度统计当前队列中待处理的请求数量。
APF 名义并发限制席位数量	sum by(instance,priority_level) (apiserver_flowcontrol_nominal_limit_seats)	按 Instance + PL 维度统计APF席位数量的相关指标。包括以下指标：名义并发限制：不同优先级队列的名义最大并发席位限制。当前并发限制：不同优先级队列中，在动态调整后实际允许的最大并发席位数量。在执行：不同优先级队列中当前正在执行的请求数对应的席位数量。队列中：不同优先级队列中排队中的请求数对应的席位数量。
APF 当前并发限制席位数量	sum by(instance,priority_level) (apiserver_flowcontrol_current_limit_seats)
APF 当前在执行的席位数量	sum by(instance,priority_level) (apiserver_flowcontrol_current_executing_seats)
APF 当前队列中席位数量	sum by(instance,priority_level) (apiserver_flowcontrol_current_inqueue_seats)
APF 请求执行时间	histogram_quantile($quantile, sum(irate(apiserver_flowcontrol_request_execution_seconds_bucket[$interval])) by (le,instance, flow_schema,priority_level))	请求从开始执行到最终完成所花费的时间。
APF 请求等待时间	histogram_quantile($quantile, sum(irate(apiserver_flowcontrol_request_wait_seconds_bucket[$interval])) by (le,instance, flow_schema,priority_level))	请求从进入队列到开始执行之间的等待时间。
APF 成功调度并处理的请求QPS	sum(irate(apiserver_flowcontrol_dispatched_requests_total[$interval]))by(instance,flow_schema,priority_level)	成功调度并处理的请求QPS。
APF 拒绝请求QPS	sum(irate(apiserver_flowcontrol_rejected_requests_total[$interval]))by(instance,flow_schema,priority_level)	因超出并发限制或队列容量而被拒绝的请求QPS。

准入控制器和Webhook

可观测性展示

功能解析

名称	PromQL	说明
准入控制器时延[admit]	histogram_quantile($quantile, sum by(operation, name, le, type, rejected) (irate(apiserver_admission_controller_admission_duration_seconds_bucket{type="admit"}[$interval])) )	使用到的admit类型的Admission Controller名称、操作、是否拒绝以及相应的执行时间。指标Bucket的阈值为`{0.005、0.025、0.1、0.5、2.5}`。单位：秒。
准入控制器时延[validate]	histogram_quantile($quantile, sum by(operation, name, le, type, rejected) (irate(apiserver_admission_controller_admission_duration_seconds_bucket{type="validate"}[$interval])) )	使用到的validate类型的Admission Controller名称、操作、是否拒绝以及相应的执行时间。指标Bucket的阈值为`{0.005、0.025、0.1、0.5、2.5}`。单位：秒。
准入Webhook时延[admit]	histogram_quantile($quantile, sum by(operation, name, le, type, rejected) (irate(apiserver_admission_webhook_admission_duration_seconds_bucket{type="admit"}[$interval])) )	使用到的admit类型的Webhook名称、操作、是否拒绝以及相应的执行时间。指标Bucket的阈值为`{0.005、0.025、0.1、0.5、2.5}`，单位：秒。
准入Webhook时延[validating]	histogram_quantile($quantile, sum by(operation, name, le, type, rejected) (irate(apiserver_admission_webhook_admission_duration_seconds_bucket{type="validating"}[$interval])) )	使用到的admit类型的Webhook名称、操作、是否拒绝以及相应的执行时间。指标Bucket的阈值为`{0.005、0.025、0.1、0.5、2.5}`。单位：秒。
准入Webhook请求QPS	sum(irate(apiserver_admission_webhook_admission_duration_seconds_count[$interval]))by(name,operation,type,rejected)	准入Webhook的请求QPS。

客户端分析

可观测性展示

功能解析

名称	PromQL	说明
按Client维度分析QPS	sum(irate(apiserver_request_total{client!=""}[$interval])) by (client)	按Client维度分析QPS。用于分析访问API Server的客户端以及QPS。
按Verb+Resource+Client维度分析QPS	sum(irate(apiserver_request_total{client!="",verb=~"$verb", resource=~"$resource"}[$interval]))by(verb,resource,client)	按Verb+Resource+Client维度分析QPS。
按Verb+Resource+Client维度分析LIST请求QPS（无resourceVersion字段）	sum(irate(apiserver_request_no_resourceversion_list_total[$interval]))by(resource,client)	按Verb+Resource+Client维度分析LIST请求的QPS（无`resourceVersion`字段）。可以分析对API Server的全部LIST请求中、到etcd的部分LIST请求，帮助识别以及优化API Server客户端的LIST行为。

常见指标异常

如果组件的常见指标异常，请对照下文的情况说明排查是否为预期内情况。

读/写请求成功率

情况说明

正常情况	异常情况	说明
读请求成功率和写请求成功率接近100%。	读请求成功率和写请求成功率维持在较低百分比，例如小于90%。	存在较多非200返回值请求。

GET/LIST读请求时延和写请求时延

情况说明

正常情况	异常情况	说明
GET读请求时延、LIST读请求时延、写请求时延与访问的集群资源数量和集群规模相关联，没有固定的正常与异常的时间分界，只要不影响业务即在接受范围内。例如，如果访问的某种资源量越大，那么LIST请求时间就会越长。一般情况下，GET读请求时延、写请求时延小于1s，LIST读请求时延小于5s，为正常现象。	GET读请求时延、写请求时延大于1s。 LIST读请求时延大于5s。	请求的响应时延过长时，需要排除集群资源数量多、Webhook调用慢等因素的影响。

在处理读/写请求数量和请求限流速率

情况说明

正常情况	异常情况	说明
通常情况下，在处理读请求数量和在处理写请求数量小于100，请求限流速率为0，为正常现象。	在处理读请求数量、在处理写请求数量大于100。请求限流速率大于0。	当前在处理请求的队列积压时，需要排除短时请求量涌入导致处理延时、Webhook调用慢等因素的影响。超过队列长度时，API Server会限流，导致请求限流速率大于0，影响集群稳定性。

准入Webhook时延

情况说明

正常情况	异常情况	说明
准入Webhook时延小于0.5s。	持续出现准入Webhook时延大于0.5s。	Webhook响应慢会影响API Server的响应时延。

使用前须知

操作入口

指标清单

大盘使用指导

筛选框

关键指标

可观测性展示

功能解析

概览

可观测性展示

功能解析

资源分析

可观测性展示

功能解析

QPS和时延

可观测性展示

功能解析

APF限流

可观测性展示

功能解析

准入控制器和Webhook

可观测性展示

功能解析

客户端分析

可观测性展示

功能解析

常见指标异常

读/写请求成功率

情况说明

推荐解决方案

GET/LIST读请求时延和写请求时延

情况说明

推荐解决方案

在处理读/写请求数量和请求限流速率

情况说明

推荐解决方案

准入Webhook时延

情况说明

推荐解决方案

相关文档