【产品变更】可观测监控 Prometheus 版支持的容器服务集群基础指标变更通知

可观测监控 Prometheus 版将于2024年11月12日00:00:00(UTC+8)起,对采集的阿里云容器服务集群基础指标范围进行调整,调整后的指标范围请参见下方内容。

请注意,默认采集指标仅限本文所示范围。

为了避免对您的业务造成影响,请仔细核对您是否使用了以下基础指标范围之外的旧基础指标,如需继续使用可配置自定义采集指标。自定义指标为计费指标,收费标准请参见计费说明

cAdvisor(Job名称:_arms/kubelet/cadvisor)

指标

描述

container_cpu_usage_seconds_total

容器CPU使用时间总计

container_fs_usage_bytes

容器文件系统使用字节

container_memory_cache

容器内存缓存

container_memory_usage_bytes

容器内存使用字节

container_memory_working_set_bytes

容器内存工作集字节

container_network_receive_bytes_total

容器网络接收字节总计

container_network_transmit_bytes_total

容器网络传输字节总计

container_scrape_error

容器指标抓取错误

DCGM_CUSTOM_CONTAINER_CP_ALLOCATED

表示为容器分配的一张GPU卡上部分算力占该GPU卡总算力的比例。值的区间为[0,1]。 独占GPU或者共享GPU只申请显存时,该指标的值为0,表示不限制算力。 假设GPU卡有100算力,为一个容器分配30算力,那么为该容器分配的算力比例为30/100=0.3。

DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED

表示为容器分配显存

DCGM_CUSTOM_DEV_FB_ALLOCATED

表示GPU卡已分配显存占总显存的比例,值的区间为[0,1]

DCGM_CUSTOM_DEV_FB_TOTAL

表示GPU卡的总显存

DCGM_CUSTOM_DEV_HEALTH

GPU健康状态

DCGM_CUSTOM_PROCESS_DECODE_UTIL

表示GPU线程的解码器利用率

DCGM_CUSTOM_PROCESS_ENCODE_UTIL

表示GPU线程的编码器利用率

DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL

表示GPU线程的内存拷贝利用率

DCGM_CUSTOM_PROCESS_MEM_USED

表示GPU线程当前使用的显存

DCGM_CUSTOM_PROCESS_SM_UTIL

表示GPU线程的SM利用率

DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED

显存带宽使用

DCGM_CUSTOM_PROF_TENS_TFPS_USED

表示GPU张量核心使用情况

DCGM_FI_DEV_DEC_UTIL

表示解码器利用率

DCGM_FI_DEV_ENC_UTIL

表示编码器利用率

DCGM_FI_DEV_FB_FREE

表示帧缓存(Framebuffer Memory)剩余数

DCGM_FI_DEV_FB_USED

表示帧缓存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应

DCGM_FI_DEV_GPU_TEMP

表示GPU温度

DCGM_FI_DEV_GPU_UTIL

表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况

DCGM_FI_DEV_MEM_CLOCK

表示内存时钟频率

DCGM_FI_DEV_MEM_COPY_UTIL

表示内存带宽利用率。以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%

DCGM_FI_DEV_POWER_USAGE

表示功率

DCGM_FI_DEV_SM_CLOCK

表示SM时钟频率

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

表示从驱动加载开始,已消耗的能量

DCGM_FI_DEV_XID_ERRORS

表示一段时间内,最后发生的XID错误号

DCGM_FI_PROF_DRAM_ACTIVE

表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。

该值表示时间间隔内的平均值,而不是瞬时值。

较高的值表示设备内存的利用率较高。

该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。

假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。

DCGM_FI_PROF_NVLINK_RX_BYTES

表示通过NVLink传输/接收的数据速率,不包括协议标头。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。

DCGM_FI_PROF_NVLINK_TX_BYTES

通过NVLINK传输的总字节数(发送方向)

DCGM_FI_PROF_PCIE_RX_BYTES

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_PCIE_TX_BYTES

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值表示Tensor Cores的利用率较高。

该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。

假设该值为0.2(20%),可能有如下情况:

在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。

在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。

在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。

其他组合模式。

DCGM_FI_PROF_SM_ACTIVE

表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是 Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0.8是必要的。 假设一个GPU有N个SM: 一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。 一个核数在一个时间间隔内运行N/5个线程块,此时该值为0.2。 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。

machine_cpu_cores

机器CPU核心数

machine_memory_bytes

机器内存字节数

node_exporter_build_info

节点导出程序构建信息

nvidia_gpu_duty_cycle

NVIDIA GPU周期百分比

nvidia_gpu_memory_total_bytes

NVIDIA GPU总内存字节

nvidia_gpu_memory_used_bytes

NVIDIA GPU使用内存量

nvidia_gpu_num_devices

NVIDIA GPU设备数量

nvidia_gpu_power_usage_milliwatts

NVIDIA GPU功耗(毫瓦)

nvidia_gpu_temperature_celsius

NVIDIA GPU温度(摄氏度)

rdma_service_monitor_local_ack_timeout_err

RDMA网络超时错误数

rdma_service_monitor_out_of_seq

RDMA网络数据报文乱序数

rdma_service_monitor_packet_seq_err

RDMA网络发包乱序错误数

rdma_service_monitor_rx_bytes

RDMA网络接收吞吐

rdma_service_monitor_rx_packets

RDMA网络接收包数

rdma_service_monitor_tx_bytes

RDMA网络发送吞吐

rdma_service_monitor_tx_packets

RDMA网络发送包数

up

指标采集的连接性

ACK ControlPlane APIServer(包含ACK Pro控制面组件:APIServer、ETCD、Scheduler、KCM、CCM等组件,ACK专有版集群只包含APIServer)(Job名称:apiserver)

指标

描述

aggregator_discovery_aggregation_count_total

聚合器发现聚合计数总数

aggregator_openapi_v2_regeneration_count

聚合器OpenAPI V2重生成次数

aggregator_openapi_v2_regeneration_duration

聚合器OpenAPI V2重生成持续时间

aggregator_unavailable_apiservice

聚合器不可用APIService

aggregator_unavailable_apiservice_count

聚合器不可用APIService计数

aggregator_unavailable_apiservice_total

聚合器不可用APIService总数

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus Agent追加耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus Agent作业发现状态

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus Agent按目标抓取总数

aliyun_prometheus_agent_target_info

阿里云Prometheus Agent目标信息

apiextensions_apiserver_validation_ratcheting_seconds_bucket

APIServer验证递增秒数桶

apiextensions_apiserver_validation_ratcheting_seconds_count

APIServer验证递增秒数计数

apiextensions_apiserver_validation_ratcheting_seconds_sum

APIServer验证递增秒数总和

apiextensions_openapi_v2_regeneration_count

Apiextensions OpenAPI V2重生成次数

apiextensions_openapi_v3_regeneration_count

Apiextensions OpenAPI V3重生成次数

apiserver_accepted_listall_requests_total

APIServer接受listall请求总数

apiserver_admission_controller_admission_duration_seconds_bucket

APIServer准入控制器准入耗时秒数桶

apiserver_admission_controller_admission_duration_seconds_count

APIServer准入控制器准入耗时秒数计数

apiserver_admission_controller_admission_duration_seconds_sum

APIServer准入控制器准入耗时秒数总和

apiserver_admission_step_admission_duration_seconds_bucket

APIServer准入步骤准入耗时秒数桶

apiserver_admission_step_admission_duration_seconds_count

APIServer准入步骤准入耗时秒数计数

apiserver_admission_step_admission_duration_seconds_sum

APIServer准入步骤准入耗时秒数总和

apiserver_admission_step_admission_duration_seconds_summary

APIServer准入步骤准入耗时秒数摘要

apiserver_admission_step_admission_duration_seconds_summary_count

APIServer准入步骤准入耗时秒数摘要计数

apiserver_admission_step_admission_duration_seconds_summary_sum

APIServer准入步骤准入耗时秒数摘要总和

apiserver_admission_webhook_admission_duration_seconds_bucket

APIServer准入Webhook准入耗时秒数桶

apiserver_admission_webhook_admission_duration_seconds_count

APIServer准入Webhook准入耗时秒数计数

apiserver_admission_webhook_admission_duration_seconds_sum

APIServer准入Webhook准入耗时秒数总和

apiserver_admission_webhook_fail_open_count

APIServer准入Webhook故障开放计数

apiserver_admission_webhook_rejection_count

APIServer准入Webhook拒绝计数

apiserver_admission_webhook_request_total

APIServer准入Webhook请求总数

apiserver_audit_error_total

APIServer审计错误总数

apiserver_audit_event_total

APIServer审计事件总数

apiserver_audit_level_total

APIServer审计级别总数

apiserver_audit_requests_rejected_total

APIServer审计请求被拒总数

apiserver_authorization_decisions_total

APIServer授权决定总数

apiserver_cache_list_fetched_objects_total

APIServer缓存列表获取对象总数

apiserver_cache_list_returned_objects_total

APIServer缓存列表返回对象总数

apiserver_cache_list_total

APIServer缓存列表操作总数

apiserver_cacher_received_events

APIServer缓存接收事件

apiserver_cacher_sended_events_latency_milliseconds_bucket

APIServer缓存器发送事件延迟的毫秒数分布情况

apiserver_cacher_sended_events_latency_milliseconds_count

APIServer缓存器发送事件延迟的毫秒数计数

apiserver_cacher_sended_events_latency_milliseconds_sum

APIServer缓存器发送事件延迟的总毫秒数

apiserver_cacher_watcher_channel_length

APIServer缓存器观察者通道长度

apiserver_cel_compilation_duration_seconds_bucket

APIServer CEL编译持续时间的秒数分布情况

apiserver_cel_compilation_duration_seconds_count

APIServer CEL编译次数计数

apiserver_cel_compilation_duration_seconds_sum

APIServer CEL编译总持续时间(秒)

apiserver_cel_evaluation_duration_seconds_bucket

APIServer CEL评估持续时间的秒数分布情况

apiserver_cel_evaluation_duration_seconds_count

APIServer CEL评估次数计数

apiserver_cel_evaluation_duration_seconds_sum

APIServer CEL评估总持续时间(秒)

apiserver_client_certificate_expiration_seconds_bucket

APIServer客户端证书过期前剩余秒数分布情况

apiserver_client_certificate_expiration_seconds_count

APIServer客户端证书过期前剩余秒数计数

apiserver_client_certificate_expiration_seconds_sum

APIServer客户端证书过期前剩余总秒数

apiserver_clusterip_repair_ip_errors_total

APIServer修复ClusterIP错误总数

apiserver_clusterip_repair_reconcile_errors_total

APIServer修复ClusterIP reconcile错误总数

apiserver_conversion_webhook_duration_seconds_bucket

APIServer转换Webhook持续时间的秒数分布情况

apiserver_conversion_webhook_duration_seconds_count

APIServer转换Webhook调用次数计数

apiserver_conversion_webhook_duration_seconds_sum

APIServer转换Webhook总持续时间(秒)

apiserver_conversion_webhook_request_total

APIServer转换Webhook请求总数

apiserver_crd_conversion_webhook_duration_seconds_bucket

APIServer CRD转换Webhook持续时间的秒数分布情况

apiserver_crd_conversion_webhook_duration_seconds_count

APIServer CRD转换Webhook调用次数计数

apiserver_crd_conversion_webhook_duration_seconds_sum

APIServer CRD转换Webhook总持续时间(秒)

apiserver_crd_webhook_conversion_duration_seconds_bucket

APIServer CRD Webhook转换持续时间的秒数分布情况

apiserver_crd_webhook_conversion_duration_seconds_count

APIServer CRD Webhook转换次数计数

apiserver_crd_webhook_conversion_duration_seconds_sum

APIServer CRD Webhook转换总持续时间(秒)

apiserver_created_watchers

APIServer创建的观察者数量

apiserver_current_inflight_requests

APIServer当前正在处理的请求数量

apiserver_current_inqueue_requests

APIServer当前队列中的请求数量

apiserver_dropped_requests_total

APIServer丢弃的请求总数

apiserver_encryption_config_controller_automatic_reload_failures_total

APIServer加密配置控制器自动重载失败次数

apiserver_encryption_config_controller_automatic_reload_success_total

APIServer加密配置控制器自动重载成功次数

apiserver_envelope_encryption_dek_cache_fill_percent

APIServer信封加密DEK缓存填充百分比

apiserver_error_watchers

APIServer错误观察者数量

apiserver_flowcontrol_current_executing_requests

APIServer流控当前执行的请求数

apiserver_flowcontrol_current_executing_seats

APIServer流控当前占用的座位数

apiserver_flowcontrol_current_inqueue_requests

APIServer流控队列中的请求数

apiserver_flowcontrol_current_inqueue_seats

APIServer流控队列中的座位数

apiserver_flowcontrol_current_limit_seats

APIServer流控当前限制的座位数

apiserver_flowcontrol_current_r

APIServer流控当前R值

apiserver_flowcontrol_demand_seats_average

APIServer流控需求座位的平均值

apiserver_flowcontrol_demand_seats_bucket

APIServer流控需求座位分布情况

apiserver_flowcontrol_demand_seats_count

APIServer流控需求座位计数

apiserver_flowcontrol_demand_seats_high_watermark

APIServer流控需求座位高水位标记

apiserver_flowcontrol_demand_seats_smoothed

APIServer流控需求座位平滑值

apiserver_flowcontrol_demand_seats_stdev

APIServer流控需求座位标准差

apiserver_flowcontrol_demand_seats_sum

APIServer流控需求座位总和

apiserver_flowcontrol_dispatch_r

APIServer流控调度R值

apiserver_flowcontrol_dispatched_requests_total

APIServer流控已调度的请求数总量

apiserver_flowcontrol_latest_s

APIServer流控最近的S值界限

apiserver_flowcontrol_lower_limit_seats

APIServer流控下限座位数

apiserver_flowcontrol_next_discounted_s_bounds

APIServer流控下次折后S值界限

apiserver_flowcontrol_next_s_bounds

APIServer流控下次S值界限

apiserver_flowcontrol_nominal_limit_seats

APIServer流控名义上的座位数上限

apiserver_flowcontrol_priority_level_request_count_samples_bucket

APIServer流控优先级层级请求数样本分布情况

apiserver_flowcontrol_priority_level_request_count_samples_count

APIServer流控优先级层级请求数样本计数

apiserver_flowcontrol_priority_level_request_count_samples_sum

APIServer流控优先级层级请求数样本总和

apiserver_flowcontrol_priority_level_request_count_watermarks_bucket

APIServer流控优先级层级请求数水位标记分布情况

apiserver_flowcontrol_priority_level_request_count_watermarks_count

APIServer流控优先级层级请求数水位标记计数

apiserver_flowcontrol_priority_level_request_count_watermarks_sum

APIServer流控优先级层级请求数水位标记总和

apiserver_flowcontrol_priority_level_request_utilization_bucket

APIServer流控优先级层级请求利用率分布情况

apiserver_flowcontrol_priority_level_request_utilization_count

APIServer流控优先级层级请求利用率计数

apiserver_flowcontrol_priority_level_request_utilization_sum

APIServer流控优先级层级请求利用率总和

apiserver_flowcontrol_priority_level_seat_count_samples_bucket

APIServer流控优先级层级座位数样本分布情况

apiserver_flowcontrol_priority_level_seat_count_samples_count

APIServer流控优先级层级座位数样本计数

apiserver_flowcontrol_priority_level_seat_count_samples_sum

APIServer流控优先级层级座位数样本总和

apiserver_flowcontrol_priority_level_seat_count_watermarks_bucket

APIServer流控优先级层级座位数水位标记分布情况

apiserver_flowcontrol_priority_level_seat_count_watermarks_count

APIServer流控优先级层级座位数水位标记计数

apiserver_flowcontrol_priority_level_seat_count_watermarks_sum

APIServer流控优先级层级座位数水位标记总和

apiserver_flowcontrol_priority_level_seat_utilization_bucket

APIServer流控优先级层级座位利用率分布情况

apiserver_flowcontrol_priority_level_seat_utilization_count

APIServer流控优先级层级座位利用率计数

apiserver_flowcontrol_priority_level_seat_utilization_sum

APIServer流控优先级级别座位利用率总和

apiserver_flowcontrol_read_vs_write_current_requests_bucket

APIServer流控读写当前请求数量桶

apiserver_flowcontrol_read_vs_write_current_requests_count

APIServer流控读写当前请求数量计数

apiserver_flowcontrol_read_vs_write_current_requests_sum

APIServer流控读写当前请求数量总和

apiserver_flowcontrol_read_vs_write_request_count_samples_bucket

APIServer流控读写请求计数样本桶

apiserver_flowcontrol_read_vs_write_request_count_samples_count

APIServer流控读写请求计数样本数量

apiserver_flowcontrol_read_vs_write_request_count_samples_sum

APIServer流控读写请求计数样本总和

apiserver_flowcontrol_read_vs_write_request_count_watermarks_bucket

APIServer流控读写请求计数水印桶

apiserver_flowcontrol_read_vs_write_request_count_watermarks_count

APIServer流控读写请求计数水印数量

apiserver_flowcontrol_read_vs_write_request_count_watermarks_sum

APIServer流控读写请求计数水印总和

apiserver_flowcontrol_rejected_requests_total

APIServer流控拒绝请求总数

apiserver_flowcontrol_request_concurrency_in_use

APIServer流控请求并发请求

apiserver_flowcontrol_request_concurrency_limit

APIServer流控请求并发限制

apiserver_flowcontrol_request_dispatch_no_accommodation_total

APIServer流控请求调度无法容纳总数

apiserver_flowcontrol_request_execution_seconds_bucket

APIServer流控请求执行秒数桶

apiserver_flowcontrol_request_execution_seconds_count

APIServer流控请求执行秒数计数

apiserver_flowcontrol_request_execution_seconds_sum

APIServer流控请求执行秒数总和

apiserver_flowcontrol_request_queue_length_after_enqueue_bucket

APIServer流控请求队列入队后长度桶

apiserver_flowcontrol_request_queue_length_after_enqueue_count

APIServer流控请求队列入队后长度计数

apiserver_flowcontrol_request_queue_length_after_enqueue_sum

APIServer流控请求队列入队后长度总和

apiserver_flowcontrol_request_wait_duration_seconds_bucket

APIServer流控请求等待时长秒数桶

apiserver_flowcontrol_request_wait_duration_seconds_count

APIServer流控请求等待时长秒数计数

apiserver_flowcontrol_request_wait_duration_seconds_sum

APIServer流控请求等待时长秒数总和

apiserver_flowcontrol_seat_fair_frac

APIServer包含了上一个借用调整期间确定的公平分配比例

apiserver_flowcontrol_target_seats

APIServer流控目标座位数

apiserver_flowcontrol_upper_limit_seats

APIServer流控上限座位数

apiserver_flowcontrol_watch_count_samples_bucket

APIServer流控观察计数样本桶

apiserver_flowcontrol_watch_count_samples_count

APIServer流控观察计数样本数量

apiserver_flowcontrol_watch_count_samples_sum

APIServer流控观察计数样本总和

apiserver_flowcontrol_work_estimated_seats_bucket

APIServer流控工作预估座位数桶

apiserver_flowcontrol_work_estimated_seats_count

APIServer流控工作预估座位数计数

apiserver_flowcontrol_work_estimated_seats_sum

APIServer流控工作预估座位数总和

apiserver_init_events_total

APIServer初始化事件总数

apiserver_kube_aggregator_x509_insecure_sha1_total

使用不安全SHA1签名的请求数

apiserver_kube_aggregator_x509_missing_san_total

APIServerkube聚合器x509缺失SAN总计

apiserver_longrunning_gauge

APIServer长时间运行计量器

apiserver_longrunning_requests

APIServer长时间运行请求

apiserver_nodeport_repair_reconcile_errors_total

APIServer节点端口修复协调错误总数

apiserver_realtime_watchers

APIServer实时观察者数量

apiserver_registered_watchers

APIServer已注册观察者数量

apiserver_request_aborts_total

APIServer请求中止总数

apiserver_request_body_size_bytes_bucket

APIServer请求体大小字节桶

apiserver_request_body_size_bytes_count

APIServer请求体大小字节计数

apiserver_request_body_size_bytes_sum

APIServer请求体大小字节总和

apiserver_request_count

APIServer请求数量

apiserver_request_duration_seconds_bucket

APIServer请求处理时间(以秒为单位)的桶

apiserver_request_duration_seconds_count

APIServer请求持续时间秒数计数

apiserver_request_duration_seconds_sum

APIServer请求持续时间秒数总和

apiserver_request_filter_duration_seconds_bucket

APIServer请求过滤器持续时间秒数桶

apiserver_request_filter_duration_seconds_count

APIServer请求过滤器持续时间秒数计数

apiserver_request_filter_duration_seconds_sum

APIServer请求过滤器持续时间秒数总和

apiserver_request_latencies_summary

APIServer请求延迟分布摘要

apiserver_request_no_resourceversion_list_total

无资源版本LIST请求总数

apiserver_request_post_timeout_total

API请求POST超时总数

apiserver_request_sli_duration_seconds_bucket

API请求SLI(服务等级指示器)持续时间秒数桶

apiserver_request_sli_duration_seconds_count

API请求SLI持续时间秒数计数

apiserver_request_sli_duration_seconds_sum

API请求SLI持续时间秒数总和

apiserver_request_slo_duration_seconds_bucket

API请求SLO(服务等级目标)持续时间秒数桶

apiserver_request_slo_duration_seconds_count

API请求SLO持续时间秒数计数

apiserver_request_slo_duration_seconds_sum

API请求SLO持续时间秒数总和

apiserver_request_terminations_total

API请求终止总数

apiserver_request_timestamp_comparison_time_bucket

API请求时间戳比较时间分布桶

apiserver_request_timestamp_comparison_time_count

API请求时间戳比较样本计数

apiserver_request_timestamp_comparison_time_sum

API请求时间戳比较时间总和

apiserver_request_total

API总请求数

apiserver_requested_deprecated_apis

请求已废弃API的APIServer请求数

apiserver_response_sizes_bucket

API响应大小分布桶

apiserver_response_sizes_count

API响应大小计数

apiserver_response_sizes_sum

API响应大小总和

apiserver_selfrequest_total

APIServer自我请求总数

apiserver_storage_data_key_generation_duration_seconds_bucket

APIServer存储数据密钥生成持续时间秒数桶

apiserver_storage_data_key_generation_duration_seconds_count

APIServer存储数据密钥生成持续时间秒数计数

apiserver_storage_data_key_generation_duration_seconds_sum

APIServer存储数据密钥生成持续时间秒数总和

apiserver_storage_data_key_generation_failures_total

APIServer存储数据密钥生成失败总数

apiserver_storage_db_total_size_in_bytes

APIServer存储数据库总大小(字节)

apiserver_storage_decode_errors_total

APIServer存储解码错误总数

apiserver_storage_envelope_transformation_cache_misses_total

APIServer存储信封转换缓存未命中总数

apiserver_storage_events_received_total

APIServer存储接收到的事件总数

apiserver_storage_list_evaluated_objects_total

APIServer存储列表评估对象总数

apiserver_storage_list_fetched_objects_total

APIServer存储列表获取对象总数

apiserver_storage_list_returned_objects_total

APIServer存储列表返回对象总数

apiserver_storage_list_total

APIServer存储列表操作总数

apiserver_storage_objects

APIServer存储对象数量

apiserver_storage_size_bytes

APIServer存储大小(字节)

apiserver_terminated_watchers_total

APIServer终止的观察者总数

apiserver_tls_handshake_errors_total

APIServerTLS握手错误请求总数

apiserver_too_large_resourceversion_errors

APIServer资源版本过大错误请求数

apiserver_watch_cache_events_dispatched_total

APIServer观察缓存分发事件总数

apiserver_watch_cache_events_received_total

APIServer观察缓存接收事件总数

apiserver_watch_cache_initializations_total

APIServer观察缓存初始化总数

apiserver_watch_cache_read_wait_seconds_bucket

APIServer观察缓存读取等待时间秒数桶

apiserver_watch_cache_read_wait_seconds_count

APIServer观察缓存读取等待时间秒数计数

apiserver_watch_cache_read_wait_seconds_sum

APIServer观察缓存读取等待时间秒数总和

apiserver_watch_cache_watch_cache_initializations_total

APIServer观察缓存初始化总数

apiserver_watch_events_sizes_bucket

APIServer观察事件大小分布桶

apiserver_watch_events_sizes_count

APIServer观察事件大小计数

apiserver_watch_events_sizes_sum

APIServer观察事件大小总和

apiserver_watch_events_total

APIServer观察事件总数

apiserver_webhooks_x509_insecure_sha1_total

使用不安全SHA1签名的请求数

apiserver_webhooks_x509_missing_san_total

APIServerWebhooks中缺失SAN总计

authenticated_user_requests

经过身份验证的用户请求总数

authentication_attempts

认证尝试次数

authentication_duration_seconds_bucket

认证过程持续时间秒数分布桶

authentication_duration_seconds_count

认证过程持续时间秒数计数

authentication_duration_seconds_sum

认证过程持续时间秒数总和

authentication_token_cache_active_fetch_count

认证令牌缓存主动获取计数

authentication_token_cache_fetch_total

认证令牌缓存获取总数

authentication_token_cache_request_duration_seconds_bucket

认证令牌缓存请求耗时秒数分布桶

authentication_token_cache_request_duration_seconds_count

认证令牌缓存请求耗时秒数计数

authentication_token_cache_request_duration_seconds_sum

认证令牌缓存请求耗时秒数总和

authentication_token_cache_request_total

认证令牌缓存请求总数

authorization_attempts_total

授权尝试总数

authorization_duration_seconds_bucket

授权过程持续时间秒数分布桶

authorization_duration_seconds_count

授权过程持续时间秒数计数

authorization_duration_seconds_sum

授权过程持续时间秒数总和

cardinality_enforcement_unexpected_categorizations_total

分类执行意外分类总计

count

计数

cpu_utilization_core

CPU使用率(核心)

disabled_metric_total

禁用指标总数

disabled_metrics_total

禁用指标总数

etcd_bookmark_counts

ETCD书签计数

etcd_db_total_size_in_bytes

ETCD数据库总大小(字节)

etcd_lease_object_counts_bucket

ETCD租约对象计数分布桶

etcd_lease_object_counts_count

ETCD租约对象计数总计

etcd_lease_object_counts_sum

ETCD租约对象计数总和

etcd_object_counts

ETCD对象计数

etcd_request_duration_seconds_bucket

ETCD请求处理时间(以秒为单位)的桶计数器

etcd_request_duration_seconds_count

ETCD请求持续时间秒数计数

etcd_request_duration_seconds_sum

ETCD请求持续时间秒数总和

etcd_request_errors_total

ETCD请求错误总数

etcd_requests_total

ETCD请求总数

etcd_watcher_channel_length

ETCD观察者通道长度

etcd_watcher_received_events

ETCD观察者接收到的事件

etcd_watcher_sended_events_latency_milliseconds_bucket

ETCD观察者发送事件延迟毫秒分布桶

etcd_watcher_sended_events_latency_milliseconds_count

ETCD观察者发送事件延迟毫秒计数

etcd_watcher_sended_events_latency_milliseconds_sum

ETCD观察者发送事件延迟毫秒总和

field_validation_request_duration_seconds_bucket

字段验证请求持续时间秒数分布桶

field_validation_request_duration_seconds_count

字段验证请求持续时间秒数计数

field_validation_request_duration_seconds_sum

字段验证请求持续时间秒数总和

get_token_count

获取令牌计数

get_token_fail_count

获取令牌失败计数

go_cgo_go_to_c_calls_calls_total

Go CGO调用C函数次数总计

go_cpu_classes_gc_mark_assist_cpu_seconds_total

Go GC标记辅助CPU秒数总计

go_cpu_classes_gc_mark_dedicated_cpu_seconds_total

Go GC专用标记CPU秒数总计

go_cpu_classes_gc_mark_idle_cpu_seconds_total

Go GC空闲标记CPU秒数总计

go_cpu_classes_gc_pause_cpu_seconds_total

Go GC暂停CPU秒数总计

go_cpu_classes_gc_total_cpu_seconds_total

Go GC总CPU秒数总计

go_cpu_classes_idle_cpu_seconds_total

Go CPU空闲时间总计

go_cpu_classes_scavenge_assist_cpu_seconds_total

Go GC辅助扫描CPU秒数总计

go_cpu_classes_scavenge_background_cpu_seconds_total

Go GC后台扫描CPU秒数总计

go_cpu_classes_scavenge_total_cpu_seconds_total

Go GC总扫描CPU秒数总计

go_cpu_classes_total_cpu_seconds_total

总CPU时间(秒)

go_cpu_classes_user_cpu_seconds_total

用户CPU时间(秒)

go_gc_cycles_automatic_gc_cycles_total

自动GC周期总数

go_gc_cycles_forced_gc_cycles_total

强制GC周期总数

go_gc_cycles_total_gc_cycles_total

总GC周期数

go_gc_duration_seconds

GC暂停时间(秒)

go_gc_duration_seconds_count

GC暂停时间计数

go_gc_duration_seconds_sum

GC暂停时间总和

go_gc_gogc_percent

GO GC目标百分比

go_gc_gomemlimit_bytes

GC内存限制(字节)

go_gc_heap_allocs_by_size_bytes_bucket

按大小分配的堆内存(字节)- 桶

go_gc_heap_allocs_by_size_bytes_count

按大小分配的堆内存(字节)- 计数

go_gc_heap_allocs_by_size_bytes_sum

按大小分配的堆内存(字节)- 总和

go_gc_heap_allocs_by_size_bytes_total_bucket

总计按大小分配的堆内存(字节)- 桶

go_gc_heap_allocs_by_size_bytes_total_count

总计按大小分配的堆内存(字节)- 计数

go_gc_heap_allocs_by_size_bytes_total_sum

总计按大小分配的堆内存(字节)- 总和

go_gc_heap_allocs_bytes_total

总堆分配字节数

go_gc_heap_allocs_objects_total

总堆分配对象数

go_gc_heap_frees_by_size_bytes_bucket

按大小释放的堆内存(字节)- 桶

go_gc_heap_frees_by_size_bytes_count

按大小释放的堆内存(字节)- 计数

go_gc_heap_frees_by_size_bytes_sum

按大小释放的堆内存(字节)- 总和

go_gc_heap_frees_by_size_bytes_total_bucket

总计按大小释放的堆内存(字节)- 桶

go_gc_heap_frees_by_size_bytes_total_count

总计按大小释放的堆内存(字节)- 计数

go_gc_heap_frees_by_size_bytes_total_sum

总计按大小释放的堆内存(字节)- 总和

go_gc_heap_frees_bytes_total

总堆释放字节数

go_gc_heap_frees_objects_total

总堆释放对象数

go_gc_heap_goal_bytes

堆目标大小(字节)

go_gc_heap_live_bytes

堆存活字节数

go_gc_heap_objects_objects

堆对象数

go_gc_heap_tiny_allocs_objects_total

微小对象分配总数

go_gc_limiter_last_enabled_gc_cycle

上次启用GC周期

go_gc_pauses_seconds_bucket

GC暂停时间分布- 桶

go_gc_pauses_seconds_count

GC暂停时间分布- 计数

go_gc_pauses_seconds_sum

GC暂停时间分布- 总和

go_gc_pauses_seconds_total_bucket

总计GC暂停时间分布- 桶

go_gc_pauses_seconds_total_count

总计GC暂停时间分布- 计数

go_gc_pauses_seconds_total_sum

总计GC暂停时间分布- 总和

go_gc_scan_globals_bytes

扫描全局变量字节数

go_gc_scan_heap_bytes

扫描堆字节数

go_gc_scan_stack_bytes

扫描栈字节数

go_gc_scan_total_bytes

总扫描字节数

go_gc_stack_starting_size_bytes

栈初始大小(字节)

go_godebug_non_default_behavior_execerrdot_events_total

非默认行为调试计数- execerrdot

go_godebug_non_default_behavior_gocachehash_events_total

非默认行为调试计数- gocachehash

go_godebug_non_default_behavior_gocachetest_events_total

非默认行为调试计数- gocachetest

go_godebug_non_default_behavior_gocacheverify_events_total

非默认行为调试计数- gocacheverify

go_godebug_non_default_behavior_gotypesalias_events_total

非默认行为调试计数- gotypesalias

go_godebug_non_default_behavior_http2client_events_total

非默认行为调试计数- http2client

go_godebug_non_default_behavior_http2server_events_total

非默认行为调试计数- http2server

go_godebug_non_default_behavior_httplaxcontentlength_events_total

非默认行为调试计数- httplaxcontentlength

go_godebug_non_default_behavior_httpmuxgo121_events_total

非默认行为调试计数- httpmuxgo121

go_godebug_non_default_behavior_installgoroot_events_total

非默认行为调试计数- installgoroot

go_godebug_non_default_behavior_jstmpllitinterp_events_total

非默认行为调试计数- jstmpllitinterp

go_godebug_non_default_behavior_multipartmaxheaders_events_total

非默认行为调试计数- multipartmaxheaders

go_godebug_non_default_behavior_multipartmaxparts_events_total

非默认行为调试计数- multipartmaxparts

go_godebug_non_default_behavior_multipathtcp_events_total

非默认行为调试计数- multipathtcp

go_godebug_non_default_behavior_panicnil_events_total

非默认行为调试计数- panicnil

go_godebug_non_default_behavior_randautoseed_events_total

非默认行为调试计数- randautoseed

go_godebug_non_default_behavior_tarinsecurepath_events_total

非默认行为调试计数- tarinsecurepath

go_godebug_non_default_behavior_tls10server_events_total

非默认行为调试计数- tls10server

go_godebug_non_default_behavior_tlsmaxrsasize_events_total

非默认行为调试计数- tlsmaxrsasize

go_godebug_non_default_behavior_tlsrsakex_events_total

非默认行为调试计数- tlsrsakex

go_godebug_non_default_behavior_tlsunsafeekm_events_total

非默认行为调试计数- tlsunsafeekm

go_godebug_non_default_behavior_x509sha1_events_total

非默认行为调试计数- x509sha1

go_godebug_non_default_behavior_x509usefallbackroots_events_total

非默认行为调试计数- x509usefallbackroots

go_godebug_non_default_behavior_x509usepolicies_events_total

非默认行为调试计数- x509usepolicies

go_godebug_non_default_behavior_zipinsecurepath_events_total

非默认行为调试计数- zipinsecurepath

go_goroutines

goroutine数量

go_info

系统信息

go_memory_classes_heap_free_bytes

Go内存类别 - 堆空闲字节数

go_memory_classes_heap_objects_bytes

Go内存类别 - 堆对象字节数

go_memory_classes_heap_released_bytes

Go内存类别 - 堆已释放字节数

go_memory_classes_heap_stacks_bytes

Go内存类别 - 堆栈字节数

go_memory_classes_heap_unused_bytes

Go内存类别 - 堆未使用字节数

go_memory_classes_metadata_mcache_free_bytes

Go内存类别 - 元数据mcache空闲字节数

go_memory_classes_metadata_mcache_inuse_bytes

Go内存类别 - 元数据mcache使用中字节数

go_memory_classes_metadata_mspan_free_bytes

Go内存类别 - 元数据mspan空闲字节数

go_memory_classes_metadata_mspan_inuse_bytes

Go内存类别 - 元数据mspan使用中字节数

go_memory_classes_metadata_other_bytes

Go内存类别 - 其他元数据字节数

go_memory_classes_os_stacks_bytes

Go内存类别 - 操作系统栈字节数

go_memory_classes_other_bytes

Go内存类别 - 其他字节数

go_memory_classes_profiling_buckets_bytes

Go内存类别 - 分析桶字节数

go_memory_classes_total_bytes

Go内存类别 - 总字节数

go_memstats_alloc_bytes

Go内存统计 - 分配字节数

go_memstats_alloc_bytes_total

Go内存统计 - 累计分配字节数

go_memstats_buck_hash_sys_bytes

Go内存统计 - 哈希表系统字节数

go_memstats_frees_total

Go内存统计 - 总释放次数

go_memstats_gc_cpu_fraction

Go内存统计 - GC CPU占比

go_memstats_gc_sys_bytes

Go内存统计 - GC系统字节数

go_memstats_heap_alloc_bytes

Go内存统计 - 堆分配字节数

go_memstats_heap_idle_bytes

Go内存统计 - 堆空闲字节数

go_memstats_heap_inuse_bytes

Go内存统计 - 堆使用中字节数

go_memstats_heap_objects

Go内存统计 - 堆对象数量

go_memstats_heap_released_bytes

Go内存统计 - 堆已释放字节数

go_memstats_heap_sys_bytes

Go内存统计 - 堆系统字节数

go_memstats_last_gc_time_seconds

Go内存统计 - 上次GC时间(秒)

go_memstats_lookups_total

Go内存统计 - 查找总数

go_memstats_mallocs_total

Go内存统计 - 总分配次数

go_memstats_mcache_inuse_bytes

Go内存统计 - mcache使用中字节数

go_memstats_mcache_sys_bytes

Go内存统计 - mcache系统字节数

go_memstats_mspan_inuse_bytes

Go内存统计 - mspan使用中字节数

go_memstats_mspan_sys_bytes

Go内存统计 - mspan系统字节数

go_memstats_next_gc_bytes

Go内存统计 - 下次GC释放字节数

go_memstats_other_sys_bytes

Go内存统计 - 其他系统字节数

go_memstats_stack_inuse_bytes

Go内存统计 - 栈使用中字节数

go_memstats_stack_sys_bytes

Go内存统计 - 栈系统字节数

go_memstats_sys_bytes

Go内存统计 - 系统字节总计

go_sched_gomaxprocs_threads

Go调度器 - GOMAXPROCS线程数

go_sched_goroutines_goroutines

Go调度器 - 协程数量

go_sched_latencies_seconds_bucket

Go调度器 - 调度延迟秒数分桶

go_sched_latencies_seconds_count

Go调度器 - 调度延迟秒数计数

go_sched_latencies_seconds_sum

Go调度器 - 调度延迟秒数总和

go_sched_pauses_stopping_gc_seconds_bucket

Go调度器 - 暂停时间(停止GC)秒数分桶

go_sched_pauses_stopping_gc_seconds_count

Go调度器 - 暂停时间(停止GC)秒数样本计数

go_sched_pauses_stopping_gc_seconds_sum

Go调度器 - 暂停时间(停止GC)秒数总和

go_sched_pauses_stopping_other_seconds_bucket

Go调度器 - 暂停时间(停止其他)秒数分桶

go_sched_pauses_stopping_other_seconds_count

Go调度器 - 暂停时间(停止其他)秒数计数

go_sched_pauses_stopping_other_seconds_sum

Go调度器 - 暂停时间(停止其他)秒数总和

go_sched_pauses_total_gc_seconds_bucket

Go调度器 - 暂停时间(总GC)秒数分桶

go_sched_pauses_total_gc_seconds_count

Go调度器 - 暂停时间(总GC)秒数计数

go_sched_pauses_total_gc_seconds_sum

Go调度器 - 暂停时间(总GC)秒数总和

go_sched_pauses_total_other_seconds_bucket

Go调度器 - 暂停时间(总其他)秒数分桶

go_sched_pauses_total_other_seconds_count

Go调度器 - 暂停时间(总其他)秒数计数

go_sched_pauses_total_other_seconds_sum

调度器因非主要活动导致的所有goroutine暂停时间的累计总和

go_sync_mutex_wait_total_seconds_total

Go同步 - Mutex等待总秒数

go_threads

Go线程数

grpc_client_handled_total

gRPC客户端:处理总数

grpc_client_msg_received_total

gRPC客户端:接收消息总数

grpc_client_msg_sent_total

gRPC客户端:发送消息总数

grpc_client_started_total

gRPC客户端:启动总数

hidden_metric_total

隐藏指标:总数

hidden_metrics_total

隐藏指标:总数

http_request_duration_microseconds

HTTP请求:持续时间(微秒)

http_request_size_bytes

HTTP请求:大小(字节)

http_requests_total

HTTP请求:总数

http_response_size_bytes

HTTP响应:大小(字节)

job

job名称

job_instance_mode

job实例模式

kube_apiserver_clusterip_allocator_allocated_ips

Kubernetes APIServer:ClusterIP分配器已分配IP数

kube_apiserver_clusterip_allocator_allocation_errors_total

Kubernetes APIServer:ClusterIP分配器分配错误总数

kube_apiserver_clusterip_allocator_allocation_total

Kubernetes APIServer:ClusterIP分配器分配总数

kube_apiserver_clusterip_allocator_available_ips

Kubernetes APIServer:ClusterIP分配器可用IP数

kube_apiserver_nodeport_allocator_allocated_ports

Kubernetes APIServer:NodePort分配器已分配端口数

kube_apiserver_nodeport_allocator_allocation_errors_total

Kubernetes APIServer:NodePort分配器分配错误总数

kube_apiserver_nodeport_allocator_allocation_total

Kubernetes APIServer:NodePort分配器分配总数

kube_apiserver_nodeport_allocator_available_ports

Kubernetes APIServer:NodePort分配器可用端口数

kube_apiserver_pod_logs_backend_tls_failure_total

Kubernetes APIServer:TLS验证失败而导致的pods/logs请求总数

kube_apiserver_pod_logs_insecure_backend_total

Kubernetes APIServer:不安全pods/logs请求总数

kube_apiserver_pod_logs_pods_logs_backend_tls_failure_total

Kubernetes APIServer:TLS验证失败而导致的pods/logs请求总数

kube_apiserver_pod_logs_pods_logs_insecure_backend_total

Kubernetes APIServer:不安全pods/logs请求总数

kubelet_container_log_filesystem_used_bytes

Kubelet:容器日志文件系统使用字节数

kubelet_node_name

Kubelet:节点名称

kubelet_pleg_relist_duration_seconds_bucket

Kubelet:PLEG重列持续时间秒数分桶

kubelet_pod_worker_duration_seconds_bucket

Kubelet:Pod工作器持续时间秒数分桶

kubelet_volume_stats_available_bytes

Kubelet:卷统计可用字节数

kubelet_volume_stats_capacity_bytes

Kubelet:卷统计容量字节数

kubelet_volume_stats_inodes

Kubelet:卷统计可用inode数

kubelet_volume_stats_inodes_free

Kubelet:卷统计空闲inode数

kubelet_volume_stats_inodes_used

Kubelet:卷统计已用inode数

kubelet_volume_stats_used_bytes

Kubelet:卷统计已用字节数

kubernetes_build_info

Kubernetes构建信息

kubernetes_feature_enabled

Kubernetes功能:启用状态

last_list_all_response_size_in_bytes

最近一次列表所有响应大小(字节)

memory_utilization_byte

内存利用率:字节数

node_authorizer_graph_actions_duration_seconds_bucket

节点授权器:图操作耗时秒数分桶

node_authorizer_graph_actions_duration_seconds_count

节点授权器:图操作耗时秒数计数

node_authorizer_graph_actions_duration_seconds_sum

节点授权器:图操作耗时秒数总和

pod_security_evaluations_total

Pod安全评估总次数

pod_security_exemptions_total

Pod安全豁免总次数

process_cpu_seconds_total

进程CPU使用秒数总计

process_max_fds

进程最大文件描述符数

process_open_fds

进程打开的文件描述符数

process_resident_memory_bytes

进程驻留内存字节数

process_start_time_seconds

进程启动时间(秒)

process_virtual_memory_bytes

进程虚拟内存字节数

process_virtual_memory_max_bytes

进程虚拟内存最大字节数

registered_metric_total

注册指标:总数

registered_metrics_total

注册指标:总计

rest_client_exec_plugin_certificate_rotation_age_bucket

REST客户端插件:证书轮换年龄秒数分桶

rest_client_exec_plugin_certificate_rotation_age_count

REST客户端插件:证书轮换年龄秒数计数

rest_client_exec_plugin_certificate_rotation_age_sum

REST客户端插件:证书轮换年龄秒数总和

rest_client_exec_plugin_ttl_seconds

REST客户端插件:证书TTL秒数

rest_client_request_duration_seconds_bucket

REST客户端:请求耗时秒数分桶

rest_client_request_duration_seconds_count

REST客户端:请求耗时秒数计数

rest_client_request_duration_seconds_sum

REST客户端:请求耗时秒数总和

rest_client_request_latency_seconds_bucket

REST客户端:请求延迟秒数分桶

rest_client_request_size_bytes_bucket

REST客户端:请求大小(字节)分桶

rest_client_request_size_bytes_count

REST客户端:请求大小(字节)计数

rest_client_request_size_bytes_sum

REST客户端:请求大小(字节)总和

rest_client_requests_total

REST客户端:请求总数

rest_client_response_size_bytes_bucket

REST客户端:响应大小(字节)分桶

rest_client_response_size_bytes_count

REST客户端:响应大小(字节)计数

rest_client_response_size_bytes_sum

REST客户端:响应大小(字节)总和

rest_client_transport_cache_entries

REST客户端:传输缓存条目数

rest_client_transport_create_calls_total

REST客户端:传输创建调用总数

scheduler_pending_pods

调度器:待调度Pod数

scheduler_pod_scheduling_attempts_bucket

调度器:Pod调度尝试次数分桶

scheduler_scheduler_cache_size

调度器:调度器缓存大小

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

serviceaccount_invalid_legacy_auto_token_uses_total

无效的旧版自动服务账户令牌使用次数总计

serviceaccount_legacy_auto_token_uses_total

旧版自动服务账户令牌使用次数总计

serviceaccount_legacy_manual_token_uses_total

旧版手动服务账户令牌使用次数总计

serviceaccount_legacy_tokens_total

旧版服务账户令牌总数

serviceaccount_stale_tokens_total

陈旧的服务账户令牌总数

serviceaccount_valid_tokens_total

有效服务账户令牌总数

ssh_tunnel_open_count

SSH隧道打开计数

ssh_tunnel_open_fail_count

SSH隧道打开失败计数

up

指标采集的连接性

watch_cache_capacity

监控缓存容量

watch_cache_capacity_decrease_total

监控缓存容量减少总计

watch_cache_capacity_increase_total

监控缓存容量增加总计

workqueue_adds_total

工作队列添加总数

workqueue_depth

工作队列深度

workqueue_longest_running_processor_seconds

工作队列中最长运行处理器时间(秒)

workqueue_queue_duration_seconds_bucket

工作队列排队时长(秒)分位桶

workqueue_queue_duration_seconds_count

工作队列排队时长(秒)计数

workqueue_queue_duration_seconds_sum

工作队列排队时长(秒)总和

workqueue_retries_total

工作队列重试总数

workqueue_unfinished_work_seconds

工作队列未完成工作时长(秒)

workqueue_work_duration_seconds_bucket

工作队列工作时长(秒)分位桶

workqueue_work_duration_seconds_count

工作队列工作时长(秒)计数

workqueue_work_duration_seconds_sum

工作队列工作时长(秒)总和

Node Exporter(Job名称:node-exporter)

指标

描述

ALERTS

告警

ALERTS_FOR_STATE

针对状态的告警数

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

count

计数

go_gc_duration_seconds

Go GC耗时(秒)

go_gc_duration_seconds_count

Go GC耗时(秒)

go_gc_duration_seconds_sum

Go GC耗时总和

go_goroutines

Go运行协程数

go_info

Go信息

go_memstats_alloc_bytes

Go内存统计 - 分配字节数

go_memstats_alloc_bytes_total

Go内存统计 - 累计分配字节数

go_memstats_buck_hash_sys_bytes

Go内存统计 - 哈希表系统字节数

go_memstats_frees_total

Go内存统计 - 总释放次数

go_memstats_gc_cpu_fraction

Go内存统计 - GC CPU占比

go_memstats_gc_sys_bytes

Go内存统计 - GC系统字节数

go_memstats_heap_alloc_bytes

Go内存统计 - 堆分配字节数

go_memstats_heap_idle_bytes

Go内存统计 - 堆空闲字节数

go_memstats_heap_inuse_bytes

Go内存统计 - 堆使用中字节数

go_memstats_heap_objects

Go内存统计 - 堆对象数量

go_memstats_heap_released_bytes

Go内存统计 - 堆已释放字节数

go_memstats_heap_sys_bytes

Go内存统计 - 堆系统字节数

go_memstats_last_gc_time_seconds

Go内存统计 - 上次GC时间(秒)

go_memstats_lookups_total

Go内存统计 - 查找总数

go_memstats_mallocs_total

Go内存统计 - 总分配次数

go_memstats_mcache_inuse_bytes

Go内存统计 - mcache使用中字节数

go_memstats_mcache_sys_bytes

Go内存统计 - mcache系统字节数

go_memstats_mspan_inuse_bytes

Go内存统计 - mspan使用中字节数

go_memstats_mspan_sys_bytes

Go内存统计 - mspan系统字节数

go_memstats_next_gc_bytes

Go内存统计 - 下次GC释放字节数

go_memstats_other_sys_bytes

Go内存统计 - 其他系统字节数

go_memstats_stack_inuse_bytes

Go内存统计 - 栈使用中字节数

go_memstats_stack_sys_bytes

Go内存统计 - 栈系统字节数

go_memstats_sys_bytes

Go内存统计 - 系统字节总计

go_threads

Go线程数

instance

实例

instance_device

实例设备

job

job名称

k8s_node_cpu_utilization

Kubernetes节点CPU使用率

k8s_node_disk_utilization

Kubernetes节点磁盘利用率

k8s_node_memory_utilization

Kubernetes节点内存利用率

node_arp_entries

节点ARP条目数

node_boot_time_seconds

节点启动时间(秒)

node_context_switches_total

节点上下文切换总数

node_cooling_device_cur_state

节点冷却设备当前状态

node_cooling_device_max_state

节点冷却设备最大状态

node_cpu_core_throttles_total

节点CPU核心节流次数总计

node_cpu_frequency_max_hertz

节点CPU最大频率(赫兹)

node_cpu_frequency_min_hertz

节点CPU最小频率(赫兹)

node_cpu_guest_seconds_total

节点CPU虚拟机时间总计

node_cpu_package_throttles_total

节点CPU封装节流次数总计

node_cpu_scaling_frequency_hertz

节点CPU动态频率(赫兹)

node_cpu_scaling_frequency_max_hertz

节点CPU动态频率最大值(赫兹)

node_cpu_scaling_frequency_min_hertz

节点CPU动态频率最小值(赫兹)

node_cpu_scaling_governor

节点CPU动态调速器

node_cpu_seconds_total

节点CPU使用时间总计

node_disk_device_mapper_info

节点磁盘DeviceMapper信息

node_disk_discard_time_seconds_total

节点磁盘丢弃时间总计(秒)

node_disk_discarded_sectors_total

节点磁盘丢弃扇区总计

node_disk_discards_completed_total

节点磁盘丢弃完成总计

node_disk_discards_merged_total

节点磁盘丢弃合并总计

node_disk_filesystem_info

节点磁盘文件系统信息

node_disk_flush_requests_time_seconds_total

节点磁盘刷新请求时间总计(秒)

node_disk_flush_requests_total

节点磁盘刷新请求总计

node_disk_info

节点磁盘信息

node_disk_io_now

节点磁盘I/O当前量

node_disk_io_time_seconds_total

节点磁盘I/O时间总计(秒)

node_disk_io_time_weighted_seconds_total

节点磁盘I/O加权时间总计(秒)

node_disk_read_bytes_total

节点磁盘读取字节总计

node_disk_read_time_seconds_total

节点磁盘读取时间总计(秒)

node_disk_reads_completed_total

节点磁盘读取完成总数

node_disk_reads_merged_total

节点磁盘读取合并总数

node_disk_write_time_seconds_total

节点磁盘写入时间总秒数

node_disk_writes_completed_total

节点磁盘写入完成总数

node_disk_writes_merged_total

节点磁盘写入合并总数

node_disk_written_bytes_total

节点磁盘写入字节总数

node_dmi_info

节点DMI信息

node_edac_correctable_errors_total

节点EDAC可纠正错误总数

node_edac_csrow_correctable_errors_total

节点EDAC csrow可纠正错误总数

node_edac_csrow_uncorrectable_errors_total

节点EDAC csrow不可纠正错误总数

node_edac_uncorrectable_errors_total

节点EDAC不可纠正错误总数

node_entropy_available_bits

节点熵可用位数

node_entropy_pool_size_bits

节点熵池大小位数

node_exporter_build_info

节点导出器构建信息

node_filefd_allocated

节点文件描述符已分配

node_filefd_maximum

节点文件描述符最大值

node_filesystem_avail_bytes

节点文件系统可用字节数

node_filesystem_device_error

节点文件系统设备错误

node_filesystem_files

节点文件系统文件数

node_filesystem_files_free

节点文件系统空闲文件数

node_filesystem_free_bytes

节点文件系统空闲字节数

node_filesystem_readonly

节点文件系统只读状态

node_filesystem_size_bytes

节点文件系统总大小字节数

node_forks_total

节点进程forks总数

node_infiniband_excessive_buffer_overrun_errors_total

节点InfiniBand过量缓冲区溢出错误总数

node_infiniband_info

节点InfiniBand信息

node_infiniband_link_downed_total

节点InfiniBand链路断开总数

node_infiniband_link_error_recovery_total

节点InfiniBand链路错误恢复总数

node_infiniband_local_link_integrity_errors_total

节点InfiniBand本地链接完整性错误总数

node_infiniband_multicast_packets_received_total

节点InfiniBand多播接收包总数

node_infiniband_multicast_packets_transmitted_total

节点InfiniBand多播发送包总数

node_infiniband_physical_state_id

节点InfiniBand网络接口物理状态ID

node_infiniband_port_constraint_errors_received_total

节点InfiniBand端口约束错误接收总数

node_infiniband_port_constraint_errors_transmitted_total

节点InfiniBand端口约束错误发送总数

node_infiniband_port_data_received_bytes_total

节点InfiniBand端口数据接收字节总数

node_infiniband_port_data_transmitted_bytes_total

节点InfiniBand端口数据发送字节总数

node_infiniband_port_discards_transmitted_total

节点InfiniBand端口丢弃发送总数

node_infiniband_port_errors_received_total

节点InfiniBand端口错误接收总数

node_infiniband_port_packets_received_total

节点InfiniBand端口接收包总数

node_infiniband_port_packets_transmitted_total

节点InfiniBand端口发送包总数

node_infiniband_port_receive_remote_physical_errors_total

节点InfiniBand端口接收远程物理错误总数

node_infiniband_port_receive_switch_relay_errors_total

节点InfiniBand端口接收交换机中继错误总数

node_infiniband_port_transmit_wait_total

节点InfiniBand端口发送等待总数

node_infiniband_rate_bytes_per_second

节点InfiniBand速率每秒字节数

node_infiniband_state_id

节点InfiniBand状态ID

node_infiniband_symbol_error_total

节点InfiniBand符号错误总数

node_infiniband_unicast_packets_received_total

节点InfiniBand单播接收包总数

node_infiniband_unicast_packets_transmitted_total

节点InfiniBand单播发送包总数

node_infiniband_vl15_dropped_total

节点InfiniBand VL15丢弃总数

node_intr_total

节点中断总数

node_load1

节点1分钟负载

node_load15

节点15分钟负载

node_load5

节点5分钟负载

node_memory_Active_anon_bytes

节点匿名活跃内存大小(字节)

node_memory_Active_bytes

节点活跃内存大小(字节)

node_memory_Active_file_bytes

节点内存活跃文件大小(字节)

node_memory_AnonHugePages_bytes

节点内存匿名大页大小(字节)

node_memory_AnonPages_bytes

节点内存匿名页面大小(字节)

node_memory_Bounce_bytes

节点内存bounce页面大小(字节)

node_memory_Buffers_bytes

节点buffers内存大小(字节)

node_memory_Cached_bytes

节点cached内存大小(字节)

node_memory_CmaFree_bytes

节点CMA空闲内存大小(字节)

node_memory_CmaTotal_bytes

节点CMA内存总大小(字节)

node_memory_CommitLimit_bytes

节点内存提交限制大小(字节)

node_memory_Committed_AS_bytes

节点内存已提交地址空间大小(字节)

node_memory_DirectMap1G_bytes

节点1GB直接映射内存大小(字节)

node_memory_DirectMap2M_bytes

节点2MB直接映射内存大小(字节)

node_memory_DirectMap4k_bytes

节点4KB直接映射内存大小(字节)

node_memory_Dirty_bytes

节点脏内存大小(字节)

node_memory_DupText_bytes

节点重复文本内存大小(字节)

node_memory_FileHugePages_bytes

节点文件大页内存大小(字节)

node_memory_FilePmdMapped_bytes

节点通过文件映射方式分配的物理内存的大小(字节)

node_memory_HardwareCorrupted_bytes

节点硬件损坏内存大小(字节)

node_memory_HugePages_Free

节点内存大页空闲量

node_memory_HugePages_Rsvd

节点内存大页预留量

node_memory_HugePages_Surp

节点内存大页盈余量

node_memory_HugePages_Total

节点大页总数

node_memory_Hugepagesize_bytes

节点大页大小(字节)

node_memory_Hugetlb_bytes

节点Hugetlb内存大小(字节)

node_memory_Inactive_anon_bytes

节点非活动匿名内存大小(字节)

node_memory_Inactive_bytes

节点非活跃内存大小(字节)

node_memory_Inactive_file_bytes

节点非活跃文件内存大小(字节)

node_memory_KernelStack_bytes

节点KernelStack内存大小(字节)

node_memory_KReclaimable_bytes

节点KReclaimable内存大小(字节)

node_memory_Mapped_bytes

节点已映射的内存大小(字节)

node_memory_MemAvailable_bytes

节点可用内存大小(字节)

node_memory_MemFree_bytes

节点空闲内存大小(字节)

node_memory_MemTotal_bytes

节点总内存大小(字节)

node_memory_MemZeroed_bytes

节点置零内存大小(字节)

node_memory_Mlocked_bytes

节点锁定内存大小(字节)

node_memory_NFS_Unstable_bytes

节点NFS不稳定内存大小(字节)

node_memory_PageTables_bytes

节点页表内存大小(字节)

node_memory_Percpu_bytes

节点每CPU内存大小(字节)

node_memory_Shmem_bytes

节点共享内存大小(字节)

node_memory_ShmemHugePages_bytes

节点共享大页内存大小(字节)

node_memory_ShmemPmdMapped_bytes

节点共享内存映射PMD大小(字节)

node_memory_Slab_bytes

节点Slab内存大小(字节)

node_memory_SReclaimable_bytes

节点SReclaimable内存大小(字节)

node_memory_SUnreclaim_bytes

节点SUnreclaim内存大小(字节)

node_memory_SwapCached_bytes

节点缓存交换空间大小(字节)

node_memory_SwapFree_bytes

节点空闲交换空间大小(字节)

node_memory_SwapTotal_bytes

节点总交换空间大小(字节)

node_memory_Unevictable_bytes

节点不可驱逐内存大小(字节)

node_memory_VmallocChunk_bytes

节点vmallocChunk内存大小(字节)

node_memory_VmallocTotal_bytes

节点vmalloc总内存大小(字节)

node_memory_VmallocUsed_bytes

节点已用vmalloc内存大小(字节)

node_memory_Writeback_bytes

节点写回内存大小(字节)

node_memory_WritebackTmp_bytes

节点临时写回内存大小(字节)

node_netstat_Icmp_InErrors

ICMP接收错误数

node_netstat_Icmp_InMsgs

ICMP接收消息数

node_netstat_Icmp_OutMsgs

ICMP发送消息数

node_netstat_Icmp6_InErrors

ICMPv6接收错误数

node_netstat_Icmp6_InMsgs

ICMPv6接收消息数

node_netstat_Icmp6_OutMsgs

ICMPv6发送消息数

node_netstat_Ip_Forwarding

IP转发状态

node_netstat_Ip6_InOctets

IPv6接收字节数

node_netstat_Ip6_OutOctets

IPv6发送字节数

node_netstat_IpExt_InOctets

IP扩展统计接收字节数

node_netstat_IpExt_OutOctets

IP扩展统计发送字节数

node_netstat_Tcp_ActiveOpens

TCP主动打开连接数

node_netstat_Tcp_CurrEstab

当前建立的TCP连接数

node_netstat_Tcp_InErrs

TCP接收错误数

node_netstat_Tcp_InSegs

TCP接收数据段数

node_netstat_Tcp_OutRsts

TCP发送复位数

node_netstat_Tcp_OutSegs

TCP发送数据段数

node_netstat_Tcp_PassiveOpens

TCP被动打开连接数

node_netstat_Tcp_RetransSegs

TCP重传数据段数

node_netstat_TcpExt_ListenDrops

监听队列丢弃的TCP连接数

node_netstat_TcpExt_ListenOverflows

监听队列溢出次数

node_netstat_TcpExt_SyncookiesFailed

SYN_COOKIE验证失败次数

node_netstat_TcpExt_SyncookiesRecv

接收到的SYN_COOKIE数

node_netstat_TcpExt_SyncookiesSent

发送的SYN_COOKIE数

node_netstat_TcpExt_TCPOFOQueue

TCP发送队列中的OFO数

node_netstat_TcpExt_TCPSynRetrans

TCP SYN重传次数

node_netstat_TcpExt_TCPTimeouts

TCP超时次数

node_netstat_Udp_InDatagrams

UDP接收数据报数

node_netstat_Udp_InErrors

UDP接收错误数

node_netstat_Udp_NoPorts

UDP目的端口不可达数

node_netstat_Udp_OutDatagrams

UDP发送数据报数

node_netstat_Udp_RcvbufErrors

UDP接收缓冲区错误数

node_netstat_Udp_SndbufErrors

UDP发送缓冲区错误数

node_netstat_Udp6_InDatagrams

IPv6 UDP接收数据报数

node_netstat_Udp6_InErrors

IPv6 UDP接收错误数

node_netstat_Udp6_NoPorts

IPv6 UDP目的端口不可达数

node_netstat_Udp6_OutDatagrams

IPv6 UDP发送数据报数

node_netstat_Udp6_RcvbufErrors

IPv6 UDP接收缓冲区错误数

node_netstat_Udp6_SndbufErrors

IPv6 UDP发送缓冲区错误数

node_netstat_UdpLite_InErrors

UDP Lite接收错误数

node_netstat_UdpLite6_InErrors

IPv6 UDP Lite接收错误数

node_network_address_assign_type

网络地址分配类型

node_network_carrier

网络运营商信息

node_network_carrier_changes_total

网络运营商变更总数

node_network_carrier_down_changes_total

网络运营商降级变更总数

node_network_carrier_up_changes_total

网络运营商升级变更总数

node_network_device_id

网络设备ID

node_network_dormant

网络休眠状态

node_network_flags

网络标志

node_network_iface_id

网络接口ID

node_network_iface_link

网络接口链接状态

node_network_iface_link_mode

网络接口链接模式

node_network_info

网络接口信息

node_network_mtu_bytes

网络最大传输单元字节数

node_network_name_assign_type

网络名称分配类型

node_network_net_dev_group

网络设备归属的网络设备组

node_network_protocol_type

网络协议类型

node_network_receive_bytes_total

累计接收字节总数

node_network_receive_compressed_total

接收压缩包总数

node_network_receive_drop_total

接收丢包总数

node_network_receive_errs_total

接收错误总数

node_network_receive_fifo_total

接收FIFO错误总数

node_network_receive_frame_total

接收帧对齐错误总数

node_network_receive_multicast_total

接收多播包总数

node_network_receive_nohandler_total

无处理程序接收总数

node_network_receive_packets_total

接收数据包总数

node_network_speed_bytes

网络速度字节数

node_network_transmit_bytes_total

累计发送字节总数

node_network_transmit_carrier_total

发送时carrier丢失总数

node_network_transmit_colls_total

发送冲突总数

node_network_transmit_compressed_total

发送压缩包总数

node_network_transmit_drop_total

发送丢包总数

node_network_transmit_errs_total

发送错误总数

node_network_transmit_fifo_total

发送FIFO错误总数

node_network_transmit_packets_total

发送数据包总数

node_network_transmit_queue_length

发送队列长度

node_network_up

网络接口是否启用

node_nf_conntrack_entries

链接状态跟踪表条目数量

node_nf_conntrack_entries_limit

链接状态跟踪表条目限制

node_nf_conntrack_stat_drop

链接状态跟踪表丢弃技术

node_nf_conntrack_stat_early_drop

早期链接跟踪丢弃计数

node_nf_conntrack_stat_found

链接跟踪成功查找计数

node_nf_conntrack_stat_ignore

链接跟踪忽略计数

node_nf_conntrack_stat_insert

链接跟踪插入计数

node_nf_conntrack_stat_insert_failed

链接跟踪插入失败计数

node_nf_conntrack_stat_invalid

链接跟踪无效计数

node_nf_conntrack_stat_search_restart

链接跟踪搜索重启计数

node_nfs_connections_total

NFS连接总数

node_nfs_packets_total

NFS数据包总数

node_nfs_requests_total

NFS请求总数

node_nfs_rpc_authentication_refreshes_total

NFS RPC身份验证刷新总数

node_nfs_rpc_retransmissions_total

NFS RPC重传总数

node_nfs_rpcs_total

NFS RPC总数

node_nfsd_connections_total

NFS服务器连接总数

node_nfsd_disk_bytes_read_total

NFS服务器磁盘读取字节总数

node_nfsd_disk_bytes_written_total

NFS服务器磁盘写入字节总数

node_nfsd_file_handles_stale_total

NFS服务器文件句柄陈旧总数

node_nfsd_packets_total

NFS服务器数据包总数

node_nfsd_read_ahead_cache_not_found_total

NFS服务器预读缓存未找到总数

node_nfsd_read_ahead_cache_size_blocks

NFS服务器预读缓存大小(块)

node_nfsd_reply_cache_hits_total

NFS服务器回复缓存命中总数

node_nfsd_reply_cache_misses_total

NFS服务器回复缓存未命中总数

node_nfsd_reply_cache_nocache_total

NFS服务器回复缓存无缓存总数

node_nfsd_requests_total

NFS服务器请求总数

node_nfsd_rpc_errors_total

NFS服务器RPC错误总数

node_nfsd_server_rpcs_total

NFS服务器处理的RPC总数

node_nfsd_server_threads

NFS服务器线程数

node_nvme_info

NVMe信息

node_os_info

操作系统信息

node_os_version

操作系统版本

node_pressure_cpu_waiting_seconds_total

CPU压力等待秒总数

node_pressure_io_stalled_seconds_total

IO压力停滞秒总数

node_pressure_io_waiting_seconds_total

IO压力等待秒总数

node_pressure_memory_stalled_seconds_total

内存压力停滞秒总数

node_pressure_memory_waiting_seconds_total

内存压力等待秒总数

node_processes_max_processes

最大进程数

node_processes_max_threads

最大线程数

node_processes_pids

进程ID数

node_processes_state

进程状态分布

node_processes_threads

线程数

node_procs_blocked

阻塞的进程数

node_procs_running

运行中的进程数

node_schedstat_running_seconds_total

调度统计-运行秒总数

node_schedstat_timeslices_total

调度统计-时间片总数

node_schedstat_waiting_seconds_total

调度统计-等待秒总数

node_scrape_collector_duration_seconds

抓取采集器持续时间(秒)

node_scrape_collector_success

抓取采集器成功次数

node_selinux_enabled

SELinux是否启用

node_sockstat_FRAG_inuse

FRAG套接字使用中

node_sockstat_FRAG_memory

FRAG套接字占用内存

node_sockstat_FRAG6_inuse

FRAG6套接字使用中

node_sockstat_FRAG6_memory

FRAG6套接字占用内存

node_sockstat_RAW_inuse

RAW套接字使用中

node_sockstat_RAW6_inuse

RAW6套接字使用中

node_sockstat_sockets_used

使用的套接字总数

node_sockstat_TCP_alloc

TCP套接字分配数

node_sockstat_TCP_inuse

TCP套接字使用中

node_sockstat_TCP_mem

TCP套接字内存使用量

node_sockstat_TCP_mem_bytes

TCP套接字内存使用字节数

node_sockstat_TCP_orphan

TCP孤儿套接字数

node_sockstat_TCP_tw

TCP TIME_WAIT套接字数

node_sockstat_TCP6_inuse

TCP6套接字使用中

node_sockstat_UDP_inuse

UDP套接字使用中

node_sockstat_UDP_mem

UDP套接字内存使用

node_sockstat_UDP_mem_bytes

UDP套接字内存使用字节数

node_sockstat_UDP6_inuse

UDP6套接字使用中

node_sockstat_UDPLITE_inuse

UDPLITE套接字使用中

node_sockstat_UDPLITE6_inuse

UDPLITE6套接字使用中

node_softnet_backlog_len

软中断队列长度

node_softnet_cpu_collision_total

软中断CPU碰撞总数

node_softnet_dropped_total

软中断丢弃总数

node_softnet_flow_limit_count_total

软中断流限制计数总数

node_softnet_processed_total

软中断处理总数

node_softnet_received_rps_total

软中断每秒接收速率总计

node_softnet_times_squeezed_total

软中断挤压次数总计

node_textfile_scrape_error

文本文件抓取错误

node_thermal_zone_temp

热区温度

node_time_clocksource_available_info

时钟源可用信息

node_time_clocksource_current_info

当前时钟源信息

node_time_seconds

自系统启动的秒数

node_time_zone_offset_seconds

时区偏移秒数

node_timex_estimated_error_seconds

估计的时间误差(秒)

node_timex_frequency_adjustment_ratio

时钟频率调整比率

node_timex_loop_time_constant

时间调整回环常数

node_timex_maxerror_seconds

最大误差(秒)

node_timex_offset_seconds

时间偏移(秒)

node_timex_pps_calibration_total

PPS校准总数

node_timex_pps_error_total

PPS错误总数

node_timex_pps_frequency_hertz

PPS频率(赫兹)

node_timex_pps_jitter_seconds

PPS抖动(秒)

node_timex_pps_jitter_total

PPS抖动累计

node_timex_pps_shift_seconds

PPS偏移(秒)

node_timex_pps_stability_exceeded_total

PPS稳定性超限次数

node_timex_pps_stability_hertz

PPS稳定性频率(赫兹)

node_timex_status

时钟时间调整状态

node_timex_sync_status

时钟同步状态

node_timex_tai_offset_seconds

TAI偏移(秒)

node_timex_tick_seconds

时钟滴答间隔(秒)

node_udp_queues

UDP队列统计

node_uname_info

系统信息(uname)

node_vmstat_oom_kill

VM统计-OOM杀死次数

node_vmstat_pgfault

VM统计-页故障次数

node_vmstat_pgmajfault

VM统计-重大页故障次数

node_vmstat_pgpgin

VM统计-页入次数

node_vmstat_pgpgout

VM统计-页出次数

node_vmstat_pswpin

VM统计-交换页入次数

node_vmstat_pswpout

VM统计-交换页出次数

node_xfs_allocation_btree_compares_total

XFS分配B树比较总数

node_xfs_allocation_btree_lookups_total

XFS分配B树查找总数

node_xfs_allocation_btree_records_deleted_total

XFS分配B树记录删除总数

node_xfs_allocation_btree_records_inserted_total

XFS分配B树记录插入总数

node_xfs_block_map_btree_compares_total

XFS块映射B树比较总数

node_xfs_block_map_btree_lookups_total

XFS块映射B树查找总数

node_xfs_block_map_btree_records_deleted_total

XFS块映射B树记录删除总数

node_xfs_block_map_btree_records_inserted_total

XFS块映射B树记录插入总数

node_xfs_block_mapping_extent_list_compares_total

XFS块映射范围列表比较总数

node_xfs_block_mapping_extent_list_deletions_total

XFS块映射范围列表删除总数

node_xfs_block_mapping_extent_list_insertions_total

XFS块映射范围列表插入总数

node_xfs_block_mapping_extent_list_lookups_total

XFS块映射范围列表查找总数

node_xfs_block_mapping_reads_total

XFS块映射读取总数

node_xfs_block_mapping_unmaps_total

XFS块映射解除映射总数

node_xfs_block_mapping_writes_total

XFS块映射写入总数

node_xfs_directory_operation_create_total

XFS目录操作创建总数

node_xfs_directory_operation_getdents_total

XFS目录操作获取目录项总数

node_xfs_directory_operation_lookup_total

XFS目录操作查找总数

node_xfs_directory_operation_remove_total

XFS目录操作移除总数

node_xfs_extent_allocation_blocks_allocated_total

XFS分配的块总数

node_xfs_extent_allocation_blocks_freed_total

XFS释放的块总数

node_xfs_extent_allocation_extents_allocated_total

XFS分配的扩展总数

node_xfs_extent_allocation_extents_freed_total

XFS释放的扩展总数

node_xfs_inode_operation_attempts_total

XFS索引节点操作尝试总数

node_xfs_inode_operation_attribute_changes_total

XFS索引节点操作属性变更总数

node_xfs_inode_operation_duplicates_total

XFS索引节点操作重复总数

node_xfs_inode_operation_found_total

XFS索引节点操作命中总数

node_xfs_inode_operation_missed_total

XFS索引节点操作未命中总数

node_xfs_inode_operation_reclaims_total

XFS索引节点操作回收总数

node_xfs_inode_operation_recycled_total

XFS索引节点操作重用总数

node_xfs_read_calls_total

XFS读取调用总数

node_xfs_vnode_active_total

XFS活动虚拟节点总数

node_xfs_vnode_allocate_total

XFS虚拟节点分配总数

node_xfs_vnode_get_total

XFS获取虚拟节点总数

node_xfs_vnode_hold_total

XFS保持虚拟节点总数

node_xfs_vnode_reclaim_total

XFS回收虚拟节点总数

node_xfs_vnode_release_total

XFS释放虚拟节点总数

node_xfs_vnode_remove_total

XFS移除虚拟节点总数

node_xfs_write_calls_total

XFS写入调用总数

process_cpu_seconds_total

进程CPU使用秒数总计

process_max_fds

进程最大文件描述符数

process_open_fds

进程打开的文件描述符数

process_resident_memory_bytes

进程常驻内存字节数

process_start_time_seconds

进程启动时间(秒)

process_virtual_memory_bytes

进程虚拟内存字节数

process_virtual_memory_max_bytes

进程虚拟内存最大字节数

promhttp_metric_handler_errors_total

Prometheus HTTP指标处理器错误总数

promhttp_metric_handler_requests_in_flight

Prometheus HTTP指标处理器当前请求数

promhttp_metric_handler_requests_total

Prometheus HTTP指标处理器请求总数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

kube-state-metrics(Job名称:_kube-state-metrics)

指标

描述

kube_configmap_info

Kubernetes ConfigMap信息

kube_cronjob_annotations

Kubernetes CronJob注解

kube_cronjob_created

Kubernetes CronJob创建时间

kube_cronjob_info

Kubernetes CronJob信息

kube_cronjob_labels

Kubernetes CronJob标签

kube_cronjob_metadata_resource_version

Kubernetes CronJob元数据资源版本

kube_cronjob_next_schedule_time

Kubernetes CronJob下次调度时间

kube_cronjob_spec_failed_job_history_limit

Kubernetes CronJob失败作业历史保留限制

kube_cronjob_spec_starting_deadline_seconds

Kubernetes CronJob启动期限秒数

kube_cronjob_spec_successful_job_history_limit

Kubernetes CronJob成功作业历史保留限制

kube_cronjob_spec_suspend

Kubernetes CronJob暂停状态

kube_cronjob_status_active

Kubernetes CronJob活跃作业数

kube_cronjob_status_last_schedule_time

Kubernetes CronJob上一次调度时间

kube_cronjob_status_last_successful_time

Kubernetes CronJob上一次成功执行时间

kube_daemonset_created

Kubernetes DaemonSet创建时间

kube_daemonset_status_current_number_scheduled

Kubernetes DaemonSet当前计划的节点数量

kube_daemonset_status_desired_number_scheduled

Kubernetes DaemonSet期望计划的节点数量

kube_daemonset_status_number_available

Kubernetes DaemonSet可用节点数量

kube_daemonset_status_number_misscheduled

Kubernetes DaemonSet错过的调度节点数量

kube_daemonset_status_number_ready

Kubernetes DaemonSet就绪节点数量

kube_daemonset_status_number_unavailable

Kubernetes DaemonSet不可用节点数量

kube_daemonset_status_updated_number_scheduled

Kubernetes DaemonSet已更新的计划节点数量

kube_daemonset_updated_number_scheduled

Kubernetes DaemonSet已更新的计划节点数量

kube_deployment_created

Kubernetes Deployment创建时间

kube_deployment_labels

Kubernetes Deployment标签

kube_deployment_metadata_generation

Kubernetes Deployment元数据生成代数

kube_deployment_spec_replicas

Kubernetes Deployment规格副本数

kube_deployment_spec_strategy_rollingupdate_max_unavailable

Kubernetes Deployment滚动更新最大不可用数

kube_deployment_status_observed_generation

Kubernetes Deployment观察到的生成代数

kube_deployment_status_replicas

Kubernetes Deployment副本总数

kube_deployment_status_replicas_available

Kubernetes Deployment可用副本数

kube_deployment_status_replicas_ready

Kubernetes Deployment就绪副本数

kube_deployment_status_replicas_unavailable

Kubernetes Deployment不可用副本数

kube_deployment_status_replicas_updated

Kubernetes Deployment已更新副本数

kube_horizontalpodautoscaler_info

Kubernetes HorizontalPodAutoscaler信息

kube_horizontalpodautoscaler_labels

Kubernetes HorizontalPodAutoscaler标签

kube_horizontalpodautoscaler_metadata_generation

Kubernetes HorizontalPodAutoscaler元数据生成代数

kube_horizontalpodautoscaler_spec_max_replicas

Kubernetes HorizontalPodAutoscaler规格最大副本数

kube_horizontalpodautoscaler_spec_min_replicas

Kubernetes HorizontalPodAutoscaler规格最小副本数

kube_horizontalpodautoscaler_spec_target_metric

Kubernetes HorizontalPodAutoscaler目标指标

kube_horizontalpodautoscaler_status_condition

Kubernetes HorizontalPodAutoscaler状态条件

kube_horizontalpodautoscaler_status_current_replicas

Kubernetes HorizontalPodAutoscaler当前副本数

kube_horizontalpodautoscaler_status_desired_replicas

Kubernetes HorizontalPodAutoscaler期望副本数

kube_hpa_labels

kube_hpa标签

kube_hpa_metadata_generation

Kubernetes HorizontalPodAutoscaler元数据生成代数

kube_hpa_spec_max_replicas

Kubernetes HorizontalPodAutoscaler最大副本数规格

kube_hpa_spec_min_replicas

Kubernetes HorizontalPodAutoscaler最小副本数规格

kube_hpa_spec_target_metric

Kubernetes HorizontalPodAutoscaler目标指标

kube_hpa_status_condition

Kubernetes HorizontalPodAutoscaler状态条件

kube_hpa_status_current_replicas

Kubernetes HorizontalPodAutoscaler当前副本数状态

kube_hpa_status_desired_replicas

Kubernetes HorizontalPodAutoscaler期望副本数状态

kube_ingress_info

Ingress信息

kube_job_created

job创建时间

kube_job_failed

job失败总数

kube_job_info

job信息

kube_job_spec_completions

job完成次数规格

kube_job_status_active

job活跃状态数

kube_job_status_failed

job失败状态数

kube_job_status_succeeded

job成功状态数

kube_namespace_created

命名空间创建时间

kube_namespace_labels

命名空间标签

kube_namespace_status_phase

命名空间状态阶段

kube_node_info

节点信息

kube_node_labels

节点标签

kube_node_spec_taint

节点污点配置

kube_node_spec_unschedulable

节点是否可调度标志

kube_node_status_allocatable

节点可分配资源量

kube_node_status_allocatable_cpu_cores

节点可分配CPU核心数

kube_node_status_allocatable_memory_bytes

节点可分配内存字节数

kube_node_status_allocatable_pods

节点可分配Pod数量

kube_node_status_capacity

节点容量

kube_node_status_capacity_cpu_cores

节点容量CPU核心数

kube_node_status_capacity_memory_bytes

节点容量内存字节数

kube_node_status_capacity_pods

节点容量Pod数量

kube_node_status_condition

节点状态条件

kube_persistentvolume_status_phase

持久卷状态阶段

kube_persistentvolumeclaim_info

持久卷声明信息

kube_persistentvolumeclaim_resource_requests_storage_bytes

持久卷声明存储资源请求量

kube_persistentvolumeclaim_status_phase

持久卷声明状态阶段

kube_pod_completion_time

Pod完成时间

kube_pod_container_info

Pod容器信息

kube_pod_container_resource_limits

Pod容器资源限制

kube_pod_container_resource_limits_cpu_cores

Pod容器资源限制CPU核心数

kube_pod_container_resource_limits_memory_bytes

Pod容器资源限制内存字节数

kube_pod_container_resource_requests

Pod容器资源请求

kube_pod_container_resource_requests_cpu_cores

Pod容器资源请求CPU核心数

kube_pod_container_resource_requests_memory_bytes

Pod容器资源请求内存字节数

kube_pod_container_status_last_terminated_reason

Pod容器最后终止原因

kube_pod_container_status_ready

Pod容器就绪状态

kube_pod_container_status_restarts_total

Pod容器重启总数

kube_pod_container_status_running

Pod容器运行状态

kube_pod_container_status_terminated

Pod容器终止状态

kube_pod_container_status_terminated_reason

Pod容器终止原因

kube_pod_container_status_waiting

Pod容器等待状态

kube_pod_container_status_waiting_reason

Pod容器等待原因

kube_pod_created

Pod创建时间

kube_pod_deletion_timestamp

Pod删除时间戳

kube_pod_info

Pod信息

kube_pod_labels

Pod标签

kube_pod_owner

Pod所属对象

kube_pod_start_time

Pod启动时间

kube_pod_status_container_ready_time

Pod状态容器就绪时间

kube_pod_status_initialized_time

Pod状态初始化完成时间

kube_pod_status_phase

Pod状态阶段

kube_pod_status_ready

Pod就绪状态

kube_pod_status_ready_time

Pod就绪时间

kube_pod_status_reason

Pod状态原因

kube_pod_status_scheduled_time

Pod调度时间

kube_pod_status_unschedulable

Pod未调度标志

kube_replicaset_owner

副本集所属对象

kube_replicaset_status_ready_replicas

副本集就绪副本数

kube_resource_relationship

资源关系

kube_resourcequota

资源配额

kube_resourcequota_created

资源配额创建时间

kube_secret_info

secret信息

kube_service_info

服务信息

kube_service_spec_type

服务类型规格

kube_service_status_load_balancer_ingress

服务状态负载均衡入口信息

kube_statefulset_created

有状态副本集创建时间

kube_statefulset_metadata_generation

有状态副本集元数据生成代数

kube_statefulset_replicas

有状态副本集副本数

kube_statefulset_status_replicas

有状态副本集状态副本数

kube_statefulset_status_replicas_available

有状态副本集状态可用副本数

kube_statefulset_status_replicas_ready

有状态副本集状态就绪副本数

kube_statefulset_status_replicas_updated

有状态副本集状态更新副本数

process_cpu_seconds_total

进程CPU使用秒总数

process_resident_memory_bytes

进程常驻内存字节数

rest_client_requests_total

REST客户端请求总数

up

指标采集的连接性

workqueue_adds_total

工作队列添加总数

workqueue_depth

工作队列深度

workqueue_queue_duration_seconds_bucket

工作队列排队时长秒数分布

kube-events(Job名称:_arms/kube-event)

指标

描述

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

eventer_events_error_total

事件处理错误总数

eventer_events_normal_total

事件正常总数

eventer_events_warning_total

事件警告总数

eventer_exporter_duration_milliseconds_count

事件导出耗时毫秒数的样本数

eventer_exporter_duration_milliseconds_sum

事件导出耗时毫秒数总和

eventer_manager_last_time_seconds

事件管理器最近操作时间秒数

eventer_scraper_duration_milliseconds_count

事件抓取持续时间(毫秒)计数

eventer_scraper_duration_milliseconds_sum

事件抓取持续时间(毫秒)总和

eventer_scraper_events_total_number

事件抓取事件总数

eventer_scraper_last_time_seconds

事件抓取最后执行时间(秒)

go_gc_duration_seconds

Go GC耗时(秒)

go_gc_duration_seconds_count

Go GC耗时(秒)

go_gc_duration_seconds_sum

Go GC耗时总和

go_goroutines

Go运行协程数

go_info

Go信息

go_memstats_alloc_bytes

Go内存统计 - 分配字节数

go_memstats_alloc_bytes_total

Go内存统计 - 累计分配字节数

go_memstats_buck_hash_sys_bytes

Go内存统计 - 哈希表系统字节数

go_memstats_frees_total

Go内存统计 - 总释放次数

go_memstats_gc_cpu_fraction

Go内存统计 - GC CPU占比

go_memstats_gc_sys_bytes

Go内存统计 - GC系统字节数

go_memstats_heap_alloc_bytes

Go内存统计 - 堆分配字节数

go_memstats_heap_idle_bytes

Go内存统计 - 堆空闲字节数

go_memstats_heap_inuse_bytes

Go内存统计 - 堆使用中字节数

go_memstats_heap_objects

Go内存统计 - 堆对象数量

go_memstats_heap_released_bytes

Go内存统计 - 堆已释放字节数

go_memstats_heap_sys_bytes

Go内存统计 - 堆系统字节数

go_memstats_last_gc_time_seconds

Go内存统计 - 上次GC时间(秒)

go_memstats_lookups_total

Go内存统计 - 查找总数

go_memstats_mallocs_total

Go内存统计 - 总分配次数

go_memstats_mcache_inuse_bytes

Go内存统计 - mcache使用中字节数

go_memstats_mcache_sys_bytes

Go内存统计 - mcache系统字节数

go_memstats_mspan_inuse_bytes

Go内存统计 - mspan使用中字节数

go_memstats_mspan_sys_bytes

Go内存统计 - mspan系统字节数

go_memstats_next_gc_bytes

Go内存统计 - 下次GC释放字节数

go_memstats_other_sys_bytes

Go内存统计 - 其他系统字节数

go_memstats_stack_inuse_bytes

Go内存统计 - 栈使用中字节数

go_memstats_stack_sys_bytes

Go内存统计 - 栈系统字节数

go_memstats_sys_bytes

Go内存统计 - 系统字节总计

go_threads

Go线程数

process_cpu_seconds_total

进程CPU使用秒数总计

process_max_fds

进程最大文件描述符数量

process_open_fds

进程打开文件描述符数量

process_resident_memory_bytes

进程常驻内存字节数

process_start_time_seconds

进程启动时间(秒)

process_virtual_memory_bytes

进程虚拟内存字节数

process_virtual_memory_max_bytes

进程虚拟内存最大字节数

promhttp_metric_handler_requests_in_flight

Prometheus HTTP指标处理器当前请求数

promhttp_metric_handler_requests_total

Prometheus HTTP指标处理器请求总数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

CoreDNS(Job名称:arms-ack-coredns)

指标

描述

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

coredns_autopath_success_count_total

CoreDNS自动路径成功次数总计

coredns_autopath_success_total

CoreDNS自动路径成功次数总计

coredns_build_info

CoreDNS构建信息

coredns_cache_drops_total

CoreDNS缓存丢弃次数总计

coredns_cache_entries

CoreDNS缓存条目数

coredns_cache_evictions_total

CoreDNS缓存逐出次数总计

coredns_cache_hits_total

CoreDNS缓存命中次数总计

coredns_cache_misses_total

CoreDNS缓存未命中次数总计

coredns_cache_requests_total

CoreDNS缓存请求总数

coredns_cache_size

CoreDNS缓存大小

coredns_dns_do_requests_total

CoreDNS DNS DO请求总数

coredns_dns_request_count_total

CoreDNS DNS请求计数总计

coredns_dns_request_duration_seconds_bucket

CoreDNS DNS请求持续时间(秒)分位数

coredns_dns_request_duration_seconds_count

CoreDNS DNS请求持续时间(秒)计数

coredns_dns_request_duration_seconds_sum

CoreDNS DNS请求持续时间(秒)总和

coredns_dns_request_size_bytes_bucket

CoreDNS DNS请求大小(字节)分位数

coredns_dns_request_size_bytes_count

CoreDNS DNS请求大小(字节)计数

coredns_dns_request_size_bytes_sum

CoreDNS DNS请求大小(字节)总和

coredns_dns_request_type_count_total

CoreDNS DNS请求类型计数总计

coredns_dns_requests_total

CoreDNS DNS请求总数

coredns_dns_response_rcode_count_total

CoreDNS DNS响应代码计数总计

coredns_dns_response_size_bytes_bucket

CoreDNS DNS响应大小(字节)分位数

coredns_dns_response_size_bytes_count

CoreDNS DNS响应大小(字节)计数

coredns_dns_response_size_bytes_sum

CoreDNS DNS响应大小(字节)总和

coredns_dns_responses_total

CoreDNS DNS响应总数

coredns_forward_conn_cache_hits_total

CoreDNS转发连接缓存命中次数总计

coredns_forward_conn_cache_misses_total

CoreDNS转发连接缓存未命中次数总计

coredns_forward_healthcheck_broken_total

CoreDNS转发健康检查失败总数

coredns_forward_healthcheck_failure_count_total

CoreDNS转发健康检查失败计数总计

coredns_forward_healthcheck_failures_total

CoreDNS转发健康检查故障总数

coredns_forward_max_concurrent_rejects_total

CoreDNS转发最大并发拒绝次数总计

coredns_forward_request_count_total

CoreDNS转发请求计数总计

coredns_forward_request_duration_seconds_bucket

CoreDNS转发请求持续时间(秒)分位数

coredns_forward_request_duration_seconds_count

CoreDNS转发请求持续时间(秒)计数

coredns_forward_request_duration_seconds_sum

CoreDNS转发请求持续时间(秒)总和

coredns_forward_requests_total

CoreDNS转发请求总数

coredns_forward_response_rcode_count_total

CoreDNS转发响应代码计数总计

coredns_forward_responses_total

CoreDNS转发响应总数

coredns_forward_sockets_open

CoreDNS转发打开的套接字数

coredns_health_request_duration_seconds_bucket

CoreDNS健康检查请求持续时间(秒)分位数

coredns_health_request_duration_seconds_count

CoreDNS健康检查请求持续时间(秒)计数

coredns_health_request_duration_seconds_sum

CoreDNS健康检查请求持续时间(秒)总和

coredns_health_request_failures_total

CoreDNS健康检查请求失败总数

coredns_hosts_entries

CoreDNS主机条目数

coredns_hosts_reload_timestamp_seconds

CoreDNS主机重新加载时间戳(秒)

coredns_kubernetes_dns_programming_duration_seconds_bucket

CoreDNS Kubernetes DNS编程持续时间(秒)分位数

coredns_kubernetes_dns_programming_duration_seconds_count

CoreDNS Kubernetes DNS编程持续时间(秒)计数

coredns_kubernetes_dns_programming_duration_seconds_sum

CoreDNS Kubernetes DNS编程耗时总和

coredns_local_localhost_requests_total

CoreDNS本地localhost请求总数

coredns_panic_count_total

CoreDNS panic总数

coredns_panics_total

CoreDNS panic计数总计

coredns_plugin_enabled

CoreDNS插件启用状态

coredns_reload_failed_total

CoreDNS重载失败次数总计

coredns_reload_version_info

CoreDNS重载版本信息

coredns_template_matches_total

CoreDNS模板匹配总数

go_gc_duration_seconds

Go GC耗时(秒)

go_gc_duration_seconds_count

Go GC耗时(秒)

go_gc_duration_seconds_sum

Go GC耗时总和

go_goroutines

Go运行协程数

go_info

Go信息

go_memstats_alloc_bytes

Go内存统计 - 分配字节数

go_memstats_alloc_bytes_total

Go内存统计 - 累计分配字节数

go_memstats_buck_hash_sys_bytes

Go内存统计 - 哈希表系统字节数

go_memstats_frees_total

Go内存统计 - 总释放次数

go_memstats_gc_cpu_fraction

Go内存统计 - GC CPU占比

go_memstats_gc_sys_bytes

Go内存统计 - GC系统字节数

go_memstats_heap_alloc_bytes

Go内存统计 - 堆分配字节数

go_memstats_heap_idle_bytes

Go内存统计 - 堆空闲字节数

go_memstats_heap_inuse_bytes

Go内存统计 - 堆使用中字节数

go_memstats_heap_objects

Go内存统计 - 堆对象数量

go_memstats_heap_released_bytes

Go内存统计 - 堆已释放字节数

go_memstats_heap_sys_bytes

Go内存统计 - 堆系统字节数

go_memstats_last_gc_time_seconds

Go内存统计 - 上次GC时间(秒)

go_memstats_lookups_total

Go内存统计 - 查找总数

go_memstats_mallocs_total

Go内存统计 - 总分配次数

go_memstats_mcache_inuse_bytes

Go内存统计 - mcache使用中字节数

go_memstats_mcache_sys_bytes

Go内存统计 - mcache系统字节数

go_memstats_mspan_inuse_bytes

Go内存统计 - mspan使用中字节数

go_memstats_mspan_sys_bytes

Go内存统计 - mspan系统字节数

go_memstats_next_gc_bytes

Go内存统计 - 下次GC释放字节数

go_memstats_other_sys_bytes

Go内存统计 - 其他系统字节数

go_memstats_stack_inuse_bytes

Go内存统计 - 栈使用中字节数

go_memstats_stack_sys_bytes

Go内存统计 - 栈系统字节数

go_memstats_sys_bytes

Go内存统计 - 系统字节总计

go_threads

Go线程数

process_cpu_seconds_total

进程CPU使用秒数总计

process_max_fds

进程最大文件描述符数量

process_open_fds

进程打开的文件描述符数量

process_resident_memory_bytes

进程常驻内存字节数

process_start_time_seconds

进程启动时间(秒)

process_virtual_memory_bytes

进程虚拟内存字节数

process_virtual_memory_max_bytes

进程虚拟内存最大字节数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

CSI(集群维度)(Job名称:k8s-csi-cluster-pv)

指标

描述

alibaba_cloud_storage_operator_build_info

阿里云存储运维构建信息

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

cluster_pv_detail_num_total

集群PV详细信息总数

cluster_pv_status_num_total

集群PV状态总数

cluster_pvc_detail_num_total

集群PVC详细信息总数

cluster_pvc_status_num_total

集群PVC状态总数

cluster_scrape_collector_duration_seconds

集群抓取收集器耗时(秒)

cluster_scrape_collector_success

集群抓取收集器成功次数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

CSI(节点维度)(Job名称:k8s-csi-node-pv)

指标

描述

alibaba_cloud_csi_driver_build_info

阿里云CSI驱动构建信息

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

cluster_scrape_collector_duration_seconds

集群抓取收集器耗时(秒)

cluster_scrape_collector_success

集群抓取收集器成功次数

container_fs_available_bytes

容器文件系统可用字节数

container_fs_inodes_free

容器文件系统可用inode数

container_fs_inodes_total

容器文件系统inode总数

container_fs_inodes_used

容器文件系统已用inode数

container_fs_limit_bytes

容器文件系统限制字节数

container_fs_usage_bytes

容器文件系统使用字节数

ephemeral_storage_pod_available_bytes

临时存储Pod可用字节数

ephemeral_storage_pod_inodes_free

临时存储Pod可用inode数

ephemeral_storage_pod_inodes_total

临时存储Pod inode总数

ephemeral_storage_pod_inodes_used

临时存储Pod已用inode数

ephemeral_storage_pod_limit_bytes

临时存储Pod限制字节数

ephemeral_storage_pod_usage_bytes

临时存储Pod使用字节数

node_volume_backend_posix_access_total_counter

节点卷后端POSIX访问计数器总计

node_volume_backend_posix_getattr_total_counter

节点卷后端POSIX getattr调用计数器总计

node_volume_backend_posix_getmode_total_counter

节点卷后端POSIX获取模式计数器总计

node_volume_backend_posix_link_total_counter

节点卷后端POSIX链接操作计数器总计

node_volume_backend_posix_lookup_total_counter

节点卷后端POSIX查找操作计数器总计

node_volume_backend_posix_mknod_total_counter

节点卷后端POSIX创建节点操作计数器总计

node_volume_backend_posix_readdir_total_counter

节点卷后端POSIX读目录操作计数器总计

node_volume_backend_posix_readlink_total_counter

节点卷后端POSIX读链接操作计数器总计

node_volume_backend_posix_remove_total_counter

节点卷后端POSIX删除操作计数器总计

node_volume_backend_posix_rename_total_counter

节点卷后端POSIX重命名操作计数器总计

node_volume_backend_posix_setattr_total_counter

节点卷后端POSIX设置属性操作计数器总计

node_volume_backend_posix_statfs_total_counter

节点卷后端POSIX统计文件系统操作计数器总计

node_volume_backend_read_bytes_total_counter

节点卷后端读取字节总计计数器

node_volume_backend_read_completed_total_counter

节点卷后端读请求完成总数

node_volume_backend_read_time_milliseconds_total_counter

节点卷后端读取时间毫秒总数

node_volume_backend_write_bytes_total_counter

节点卷后端写入字节总数

node_volume_backend_write_completed_total_counter

节点卷后端写请求完成总数

node_volume_backend_write_time_milliseconds_total_counter

节点卷后端写入时间毫秒总数

node_volume_capacity_bytes_available

节点卷可用容量(字节)

node_volume_capacity_bytes_available_counter

节点卷可用容量(字节)

node_volume_capacity_bytes_total

节点卷总容量字节数

node_volume_capacity_bytes_total_counter

节点卷总容量字节数计数器

node_volume_capacity_bytes_used

节点卷已用容量字节数

node_volume_capacity_bytes_used_counter

节点卷已用容量字节数计数器

node_volume_hot_spot_head_file_top

节点卷热点头部文件排行

node_volume_hot_spot_read_file_top

节点卷热点读取文件排行

node_volume_hot_spot_write_file_top

节点卷热点写入文件排行

node_volume_inode_bytes_available_counter

节点卷inode可用字节计数器

node_volume_inode_bytes_total_counter

节点卷inode总字节计数器

node_volume_inode_bytes_used_counter

节点卷inode已用字节计数器

node_volume_inodes_available

节点卷可用inode数

node_volume_inodes_total

节点卷总inode数

node_volume_inodes_used

节点卷已用inode数

node_volume_io_now

节点卷当前I/O数量

node_volume_io_time_seconds_total

节点卷I/O时间总秒数

node_volume_oss_delete_object_total_counter

节点卷OSS删除对象总数计数器

node_volume_oss_get_object_total_counter

节点卷OSS获取对象总数计数器

node_volume_oss_head_object_total_counter

节点卷OSS头部对象总数计数器

node_volume_oss_post_object_total_counter

节点卷OSS POST对象总数计数器

node_volume_oss_put_object_total_counter

节点卷OSS PUT对象总数计数器

node_volume_posix_access_total_counter

节点卷POSIX访问总数计数器

node_volume_posix_chmod_total_counter

节点卷POSIX更改模式总数计数器

node_volume_posix_chown_total_counter

节点卷POSIX更改所有者总数计数器

node_volume_posix_create_total_counter

节点卷POSIX创建总数计数器

node_volume_posix_flush_total_counter

节点卷POSIX刷新总数计数器

node_volume_posix_fsync_total_counter

节点卷POSIX同步总数计数器

node_volume_posix_mkdir_total_counter

节点卷POSIX新建目录总数计数器

node_volume_posix_open_total_counter

节点卷POSIX打开总数计数器

node_volume_posix_opendir_total_counter

节点卷POSIX打开目录总数计数器

node_volume_posix_read_total_counter

节点卷POSIX读取总数计数器

node_volume_posix_readdir_total_counter

节点卷POSIX读取目录总数计数器

node_volume_posix_release_total_counter

节点卷POSIX释放总数计数器

node_volume_posix_rename_total_counter

节点卷POSIX重命名总数计数器

node_volume_posix_rmdir_total_counter

节点卷POSIX删除目录总数计数器

node_volume_posix_truncate_total_counter

节点卷POSIX截断总数计数器

node_volume_posix_write_total_counter

节点卷POSIX写入总数计数器

node_volume_read_bytes_total

节点卷读取字节总数

node_volume_read_bytes_total_counter

节点卷读取字节总数计数器

node_volume_read_completed_total

节点卷读请求完成总数

node_volume_read_completed_total_counter

节点卷读请求完成总数计数器

node_volume_read_merged_total

节点卷读取合并操作总数

node_volume_read_queue_time_milliseconds_total

节点卷读取队列时间毫秒总数

node_volume_read_rtt_time_milliseconds_total

节点卷读取往返时间毫秒总数

node_volume_read_sent_bytes_total

节点卷读取发送字节总数

node_volume_read_time_milliseconds_total

节点卷读取时间毫秒总数

node_volume_read_time_milliseconds_total_counter

节点卷读取时间毫秒总数计数器

node_volume_read_timeouts_total

节点卷读取超时总数

node_volume_read_transmissions_total

节点卷读取传输总数

node_volume_vg_free_bytes

节点卷VG空闲字节数

node_volume_vg_size_bytes

节点卷VG总字节数

node_volume_write_bytes_total

节点卷写入字节总数

node_volume_write_bytes_total_counter

节点卷写入字节总数计数器

node_volume_write_completed_total

节点卷写请求完成总数

node_volume_write_completed_total_counter

节点卷写请求完成总数计数器

node_volume_write_merged_total

节点卷写入合并操作总数

node_volume_write_queue_time_milliseconds_total

节点卷写入队列时间毫秒总数

node_volume_write_recv_bytes_total

节点卷写入接收字节总数

node_volume_write_rtt_time_milliseconds_total

节点卷写入往返时间毫秒总数

node_volume_write_time_milliseconds_total

节点卷写入时间毫秒总数

node_volume_write_time_milliseconds_total_counter

节点卷写入时间毫秒总数计数器

node_volume_write_timeouts_total

节点卷写入超时总数

node_volume_write_transmissions_total

节点卷写入传输总数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

GPU-Exporter(Job名称:gpu-exporter)

指标

描述

DCGM_CUSTOM_ALLOCATE_MODE

表示节点运行的模式,有如下几种: 0:代表值为None,表示当前节点没有GPU Pod在运行。 1:代表值为Exclusive,表示None当前节点的GPU Pod以独占GPU方式运行。 2:代表值为Share,表示当前节点GPU Pod以共享GPU方式运行。

DCGM_CUSTOM_CONTAINER_CP_ALLOCATED

表示为容器分配的一张GPU卡上部分算力占该GPU卡总算力的比例。值的区间为[0,1]。 独占GPU或者共享GPU只申请显存时,该指标的值为0,表示不限制算力。 假设GPU卡有100算力,为一个容器分配30算力,那么为该容器分配的算力比例为30/100=0.3。

DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED

表示为容器分配显存。

DCGM_CUSTOM_DEV_FB_ALLOCATED

表示GPU卡已分配显存占总显存的比例,值的区间为[0,1]。

DCGM_CUSTOM_DEV_FB_TOTAL

表示GPU卡的总显存。

DCGM_CUSTOM_ILLEGAL_PROCESS_DECODE_UTIL

非法进程解码利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_ENCODE_UTIL

非法进程编码利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_COPY_UTIL

非法进程内存复制利用率

DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_USED

非法进程使用的内存

DCGM_CUSTOM_ILLEGAL_PROCESS_SM_UTIL

非法进程流式多处理器(SM)利用率

DCGM_CUSTOM_PROCESS_DECODE_UTIL

表示GPU线程的解码器利用率。

DCGM_CUSTOM_PROCESS_ENCODE_UTIL

表示GPU线程的编码器利用率。

DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL

表示GPU线程的内存拷贝利用率。

DCGM_CUSTOM_PROCESS_MEM_USED

表示GPU线程当前使用的显存。

DCGM_CUSTOM_PROCESS_SM_UTIL

表示GPU线程的SM利用率。

DCGM_FI_DEV_APP_MEM_CLOCK

表示内存应用时钟频率。

DCGM_FI_DEV_APP_SM_CLOCK

表示SM应用时钟频率。

DCGM_FI_DEV_BAR1_FREE

表示剩余的BAR1。

DCGM_FI_DEV_BAR1_TOTAL

设备BAR1总大小(Base Address Register 1,用于映射GPU内存到系统地址空间)

DCGM_FI_DEV_BAR1_USED

表示已使用的BAR1。

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION

表示由于电路板限制而导致的违规,该值为违规的时间。

DCGM_FI_DEV_CLOCK_THROTTLE_REASONS

表示时钟慢下来的原因。

DCGM_FI_DEV_COUNT

设备数量

DCGM_FI_DEV_DEC_UTIL

表示解码器利用率。

DCGM_FI_DEV_ENC_UTIL

表示编码器利用率。

DCGM_FI_DEV_FB_FREE

表示帧缓存(Framebuffer Memory)剩余数。

DCGM_FI_DEV_FB_USED

表示帧缓存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应。

DCGM_FI_DEV_GPU_TEMP

表示GPU温度。

DCGM_FI_DEV_GPU_UTIL

表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况。

DCGM_FI_DEV_LOW_UTIL_VIOLATION

表示低利用率限制导致的违规,该值为违规的时间。

DCGM_FI_DEV_MEM_CLOCK

表示内存时钟频率。

DCGM_FI_DEV_MEM_COPY_UTIL

表示内存带宽利用率。以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。

DCGM_FI_DEV_MEMORY_TEMP

表示内存温度。

DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL

NVLINK总带宽

DCGM_FI_DEV_PCIE_REPLAY_COUNTER

PCIe重播计数器(记录数据传输错误需重试的次数)

DCGM_FI_DEV_POWER_USAGE

表示功率。

DCGM_FI_DEV_POWER_VIOLATION

表示因功率上限而导致的违规,该值为违规的时间。

DCGM_FI_DEV_PSTATE

设备电源状态

DCGM_FI_DEV_RELIABILITY_VIOLATION

表示电路板可靠性限制导致违规,该值为违规的时间。

DCGM_FI_DEV_RETIRED_DBE

表示用双bit错误而停用的页面。

DCGM_FI_DEV_RETIRED_PENDING

即将退役的页面数(GPU内存中因错误而被标记为不可用的页面)

DCGM_FI_DEV_RETIRED_SBE

表示由单bit错误而停用的页面。

DCGM_FI_DEV_SM_CLOCK

表示SM时钟频率。

DCGM_FI_DEV_SYNC_BOOST_VIOLATION

表示由于同步提升限制而导致的违规,该值为违规的时间。

DCGM_FI_DEV_THERMAL_VIOLATION

表示由于热限制导致的违规,该值为违规的时间。

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION

表示从驱动加载开始,已消耗的能量.

DCGM_FI_DEV_VIDEO_CLOCK

视频时钟频率

DCGM_FI_DEV_XID_ERRORS

表示一段时间内,最后发生的XID错误号。

DCGM_FI_PROF_DRAM_ACTIVE

表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。

该值表示时间间隔内的平均值,而不是瞬时值。

较高的值表示设备内存的利用率较高。

该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。

假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。

DCGM_FI_PROF_GR_ENGINE_ACTIVE

表示在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比。该值表示所有Graphics和Compute引擎的平均值。Graphics或Compute引擎处于Active是指Graphics或Compute Context绑定到线程,并且Graphics或Compute Context处于Busy状态。

DCGM_FI_PROF_NVLINK_RX_BYTES

表示通过NVLink传输/接收的数据速率,不包括协议标头。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。

DCGM_FI_PROF_NVLINK_TX_BYTES

通过NVLINK传输的总字节数(发送方向)

DCGM_FI_PROF_PCIE_RX_BYTES

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_PCIE_TX_BYTES

表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。

该值表示一个时间间隔内的平均值,而不是瞬时值。

该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。

DCGM_FI_PROF_PIPE_FP16_ACTIVE

表示FP16(半精度)管道处于Active的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP16 Cores有较高的利用率。

该值为 1 (100%) 表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP16指令。

假设该值为0.2(20%),可能有如下情况:

在整个时间间隔内,有20%的SM的FP16 Core以100%的利用率运行。

在整个时间间隔内,有100%的SM的FP16 Core以20%的利用率运行。

在整个时间间隔的1/5时间内,有100%的SM上的FP16 Core以100%利用率运行。

其他组合模式。

DCGM_FI_PROF_PIPE_FP32_ACTIVE

表示乘加操作FMA(Fused Multiply-Add)管道处于Active的周期分数,乘加操作包括FP32(单精度)和整数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP32 Cores有较高的利用率。

该值为1(100%)表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP32指令。

假设该值为0.2(20%),可能有如下情况:

在整个时间间隔内,有20%的SM的FP32 Core以100%的利用率运行。

在整个时间间隔内,有100%的SM的FP32 Core以20%的利用率运行。

在整个时间间隔的1/5时间内,有100%的SM上的FP32 Core以100%利用率运行。

其他组合模式。

DCGM_FI_PROF_PIPE_FP64_ACTIVE

表示FP64(双精度)Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值代表FP64 Cores有较高的利用率。

该值为 1(100%)表示在整个时间间隔内上每四个周期(以Volta类型卡为例)执行一次FP64指令。

假设该值为0.2(20%),可能有如下情况:

在整个时间间隔内,有20%的SM的FP64 Core以100%的利用率运行。

在整个时间间隔内,有100%的SM的FP64 Core以20%的利用率运行。

在整个时间间隔的1/5时间内,有100%的SM上的FP64 Core以100%利用率运行。

其他组合模式。

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。

该值表示一个时间间隔内的平均值,而不是瞬时值。

较高的值表示Tensor Cores的利用率较高。

该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。

假设该值为0.2(20%),可能有如下情况:

在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。

在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。

在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。

其他组合模式。

DCGM_FI_PROF_SM_ACTIVE

表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是 Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0.8是必要的。 假设一个GPU有N个SM: 一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。 一个核数在一个时间间隔内运行N/5个线程块,此时该值为0.2。 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。

DCGM_FI_PROF_SM_OCCUPANCY

表示在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。该值表示一个时间间隔内的所有SM的平均值。占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载(DCGM_FI_PROF_DRAM_ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。

nvidia_gpu_allocated_num_devices

分配的gpu设备数量,Warining:将来将弃用

nvidia_gpu_memory_allocated_bytes

gpu设备已满内存,Warining:将来将弃用,由DCGM_CUSTOM_DEV_FB_allocated代替

nvidia_gpu_sharing_memory

gpu共享时分配的内存,Warining:将来将弃用,DCGM_CUSTOM_DEV_FB_allocated

up

指标采集的连接性

Cost-Exporter(Job名称:alibaba-cloud-cost-exporter)

指标

描述

deducted_by_cash_coupons

当前实例对应一笔账单的账单优惠券抵扣

deducted_by_prepaid_card

当前实例对应一笔账单的预付费卡抵扣

invoice_discount

当前实例对应一笔账单的优惠金额

list_price

当前实例对应一笔账单的单价

node_current_price

当前节点实际价格

node_payAsYouGo_price

当前节点以按量付费策略的节点价格

node_payByPeriod_price

当前节点以包年包月付费策略的节点价格

node_spot_price

当前节点以同规格抢占实例Spot策略的节点价格

outstanding_amount

当前实例对应一笔账单的未结清金额

payent_amount

当前实例对应一笔账单的现金支付金额

pretax_amount

当前实例对应一笔账单的应付金额

pretax_gross_amount

当前实例对应一笔账单的原始金额

usage

当前实例对应一笔账单的资源用量

up

指标采集的连接性

Ingress(Job名称:arms-ack-ingress)

指标

描述

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

go_cgo_go_to_c_calls_calls_total

Go CGO调用C函数次数总计

go_gc_cycles_automatic_gc_cycles_total

自动GC周期总数

go_gc_cycles_forced_gc_cycles_total

强制GC周期总数

go_gc_cycles_total_gc_cycles_total

总GC周期数

go_gc_duration_seconds

Go GC耗时(秒)

go_gc_duration_seconds_count

Go GC耗时(秒)

go_gc_duration_seconds_sum

Go GC耗时总和

go_gc_heap_allocs_by_size_bytes_total_bucket

按大小分类的Go GC堆分配总计(字节)- 桶

go_gc_heap_allocs_by_size_bytes_total_count

按大小分类的Go GC堆分配总计(字节)- 计数

go_gc_heap_allocs_by_size_bytes_total_sum

按大小分类的Go GC堆分配总计(字节)- 总和

go_gc_heap_allocs_bytes_total

Go GC堆分配字节总计

go_gc_heap_allocs_objects_total

Go GC堆分配对象总计

go_gc_heap_frees_by_size_bytes_total_bucket

按大小释放的Go GC堆释放总计(字节)- 桶

go_gc_heap_frees_by_size_bytes_total_count

按大小释放的Go GC堆释放总计(字节)- 计数

go_gc_heap_frees_by_size_bytes_total_sum

按大小释放的Go GC堆释放总计(字节)- 总和

go_gc_heap_frees_bytes_total

Go GC堆释放字节总计

go_gc_heap_frees_objects_total

Go GC堆释放对象总计

go_gc_heap_goal_bytes

Go GC堆目标大小(字节)

go_gc_heap_objects_objects

Go GC堆对象数量

go_gc_heap_tiny_allocs_objects_total

Go GC小对象分配数量总计

go_gc_limiter_last_enabled_gc_cycle

最后一次启用GC周期

go_gc_pauses_seconds_total_bucket

Go GC暂停时间分布(秒)- 桶

go_gc_pauses_seconds_total_count

Go GC暂停时间分布(秒)- 计数

go_gc_pauses_seconds_total_sum

Go GC暂停时间分布(秒)- 总和

go_gc_stack_starting_size_bytes

Go GC栈起始大小(字节)

go_goroutines

Go 运行协程数

go_info

Go 信息

go_memory_classes_heap_free_bytes

Go 内存类别 - 堆空闲字节数

go_memory_classes_heap_objects_bytes

Go 内存类别 - 堆对象字节数

go_memory_classes_heap_released_bytes

Go 内存类别 - 堆已释放字节数

go_memory_classes_heap_stacks_bytes

Go 内存类别 - 堆栈字节数

go_memory_classes_heap_unused_bytes

Go 内存类别 - 堆未使用字节数

go_memory_classes_metadata_mcache_free_bytes

Go 内存类别 - 元数据mcache空闲字节数

go_memory_classes_metadata_mcache_inuse_bytes

Go 内存类别 - 元数据mcache使用中字节数

go_memory_classes_metadata_mspan_free_bytes

Go 内存类别 - 元数据mspan空闲字节数

go_memory_classes_metadata_mspan_inuse_bytes

Go 内存类别 - 元数据mspan使用中字节数

go_memory_classes_metadata_other_bytes

Go 内存类别 - 其他元数据字节数

go_memory_classes_os_stacks_bytes

Go 内存类别 - 操作系统栈字节数

go_memory_classes_other_bytes

Go 内存类别 - 其他字节数

go_memory_classes_profiling_buckets_bytes

Go 内存类别 - 分析桶字节数

go_memory_classes_total_bytes

Go 内存类别 - 总字节数

go_memstats_alloc_bytes

Go 内存统计 - 分配字节数

go_memstats_alloc_bytes_total

Go 内存统计 - 累计分配字节数

go_memstats_buck_hash_sys_bytes

Go 内存统计 - 哈希表系统字节数

go_memstats_frees_total

Go 内存统计 - 总释放次数

go_memstats_gc_cpu_fraction

Go 内存统计 - GC CPU占比

go_memstats_gc_sys_bytes

Go 内存统计 - GC系统字节数

go_memstats_heap_alloc_bytes

Go 内存统计 - 堆分配字节数

go_memstats_heap_idle_bytes

Go 内存统计 - 堆空闲字节数

go_memstats_heap_inuse_bytes

Go 内存统计 - 堆使用中字节数

go_memstats_heap_objects

Go 内存统计 - 堆对象数量

go_memstats_heap_released_bytes

Go 内存统计 - 堆已释放字节数

go_memstats_heap_sys_bytes

Go 内存统计 - 堆系统字节数

go_memstats_last_gc_time_seconds

Go 内存统计 - 上次GC时间(秒)

go_memstats_lookups_total

Go 内存统计 - 查找总数

go_memstats_mallocs_total

Go 内存统计 - 总分配次数

go_memstats_mcache_inuse_bytes

Go 内存统计 - mcache使用中字节数

go_memstats_mcache_sys_bytes

Go 内存统计 - mcache系统字节数

go_memstats_mspan_inuse_bytes

Go 内存统计 - mspan使用中字节数

go_memstats_mspan_sys_bytes

Go 内存统计 - mspan系统字节数

go_memstats_next_gc_bytes

Go 内存统计 - 下次GC释放字节数

go_memstats_other_sys_bytes

Go 内存统计 - 其他系统字节数

go_memstats_stack_inuse_bytes

Go 内存统计 - 栈使用中字节数

go_memstats_stack_sys_bytes

Go 内存统计 - 栈系统字节数

go_memstats_sys_bytes

Go 内存统计 - 系统字节总计

go_sched_gomaxprocs_threads

Go 调度器 - 最大可并行数(线程)

go_sched_goroutines_goroutines

Go 调度器 - 当前goroutine数量

go_sched_latencies_seconds_bucket

Go 调度延迟(秒)- 桶

go_sched_latencies_seconds_count

Go 调度延迟(秒)- 计数

go_sched_latencies_seconds_sum

Go 调度延迟(秒)- 总和

go_threads

Go 线程数

nginx_ingress_controller_admission_config_size

Nginx Ingress控制器 - Admission Config大小

nginx_ingress_controller_admission_render_duration

Nginx Ingress控制器 - 渲染耗时

nginx_ingress_controller_admission_render_ingresses

Nginx Ingress控制器 - 渲染的Ingress数量

nginx_ingress_controller_admission_roundtrip_duration

Nginx Ingress控制器 - 往返处理耗时

nginx_ingress_controller_admission_tested_duration

Nginx Ingress控制器 - 测试耗时

nginx_ingress_controller_admission_tested_ingresses

Nginx Ingress控制器 - 测试的Ingress数量

nginx_ingress_controller_build_info

Nginx Ingress控制器 - 构建信息

nginx_ingress_controller_bytes_sent_bucket

Nginx Ingress控制器 - 发送字节总计(桶)

nginx_ingress_controller_bytes_sent_count

Nginx Ingress控制器 - 发送字节总计(计数)

nginx_ingress_controller_bytes_sent_sum

Nginx Ingress控制器 - 发送字节总计(总和)

nginx_ingress_controller_check_errors

Nginx Ingress控制器 - 检查错误数

nginx_ingress_controller_check_success

Nginx Ingress控制器 - 检查成功数

nginx_ingress_controller_config_hash

Nginx Ingress控制器 - 配置哈希

nginx_ingress_controller_config_last_reload_successful

Nginx Ingress控制器 - 配置最后加载是否成功

nginx_ingress_controller_config_last_reload_successful_timestamp_seconds

Nginx Ingress控制器 - 配置最后成功加载时间(秒)

nginx_ingress_controller_connect_duration_seconds_bucket

Nginx Ingress控制器 - 连接耗时(秒)- 桶

nginx_ingress_controller_connect_duration_seconds_count

Nginx Ingress控制器 - 连接耗时(秒)- 计数

nginx_ingress_controller_connect_duration_seconds_sum

Nginx Ingress控制器 - 连接耗时(秒)- 总和

nginx_ingress_controller_errors

Nginx Ingress控制器 - 错误数

nginx_ingress_controller_header_duration_seconds_bucket

Nginx Ingress控制器 - 头部处理耗时(秒)- 桶

nginx_ingress_controller_header_duration_seconds_count

Nginx Ingress控制器 - 头部处理耗时(秒)- 计数

nginx_ingress_controller_header_duration_seconds_sum

Nginx Ingress控制器头部耗时总和(秒)

nginx_ingress_controller_ingress_upstream_latency_seconds

Nginx Ingress控制器上游延迟时间(秒)

nginx_ingress_controller_ingress_upstream_latency_seconds_count

Nginx Ingress控制器上游延迟计数

nginx_ingress_controller_ingress_upstream_latency_seconds_sum

Nginx Ingress控制器上游延迟总和(秒)

nginx_ingress_controller_leader_election_status

Nginx Ingress控制器Leader选举状态

nginx_ingress_controller_nginx_process_connections

Nginx Ingress控制器nginx进程连接数

nginx_ingress_controller_nginx_process_connections_total

Nginx Ingress控制器nginx进程总连接数

nginx_ingress_controller_nginx_process_cpu_seconds_total

Nginx Ingress控制器nginx进程CPU使用秒总数

nginx_ingress_controller_nginx_process_num_procs

Nginx Ingress控制器nginx进程数量

nginx_ingress_controller_nginx_process_oldest_start_time_seconds

Nginx Ingress控制器nginx进程最老启动时间(秒)

nginx_ingress_controller_nginx_process_read_bytes_total

Nginx Ingress控制器nginx进程读取字节总数

nginx_ingress_controller_nginx_process_requests_total

Nginx Ingress控制器nginx进程请求总数

nginx_ingress_controller_nginx_process_resident_memory_bytes

Nginx Ingress控制器nginx进程驻留内存字节数

nginx_ingress_controller_nginx_process_virtual_memory_bytes

Nginx Ingress控制器nginx进程虚拟内存字节数

nginx_ingress_controller_nginx_process_write_bytes_total

Nginx Ingress控制器nginx进程写入字节总数

nginx_ingress_controller_orphan_ingress

Nginx Ingress控制器孤立Ingress数量

nginx_ingress_controller_request_duration_seconds_bucket

Nginx Ingress控制器请求耗时分布(秒)

nginx_ingress_controller_request_duration_seconds_count

Nginx Ingress控制器请求耗时计数(秒)

nginx_ingress_controller_request_duration_seconds_sum

Nginx Ingress控制器请求耗时总和(秒)

nginx_ingress_controller_request_size_bucket

Nginx Ingress控制器请求大小分布

nginx_ingress_controller_request_size_count

Nginx Ingress控制器请求大小计数

nginx_ingress_controller_request_size_sum

Nginx Ingress控制器请求大小总和

nginx_ingress_controller_requests

Nginx Ingress控制器请求总数

nginx_ingress_controller_response_duration_seconds_bucket

Nginx Ingress控制器响应耗时分布(秒)

nginx_ingress_controller_response_duration_seconds_count

Nginx Ingress控制器响应耗时计数(秒)

nginx_ingress_controller_response_duration_seconds_sum

Nginx Ingress控制器响应耗时总和(秒)

nginx_ingress_controller_response_size_bucket

Nginx Ingress控制器响应大小分布

nginx_ingress_controller_response_size_count

Nginx Ingress控制器响应大小计数

nginx_ingress_controller_response_size_sum

Nginx Ingress控制器响应大小总和

nginx_ingress_controller_ssl_certificate_info

Nginx Ingress控制器SSL证书信息

nginx_ingress_controller_ssl_expire_time_seconds

Nginx Ingress控制器SSL证书过期时间(秒)

nginx_ingress_controller_success

Nginx Ingress控制器成功次数

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

up

指标采集的连接性

Koordinator(Job名称:kube-system/koordlet-metrics-podmonitor、koord-manager-metrics-service

指标

描述

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

koord_manager_recommender_recommendation_workload_target

资源画像功能工作负载推荐规格指标

koordlet_container_resource_limits

容器资源limit指标

koordlet_container_resource_requests

容器资源request指标

koordlet_node_priority_resource_reclaimable

节点资源优先级指标

koordlet_node_resource_allocatable

节点分配资源指标

scrape_duration_seconds

抓取持续时间(秒)

scrape_samples_post_metric_relabeling

抓取样本数(指标重标签后)

scrape_samples_scraped

抓取样本数

scrape_series_added

抓取新增序列数

slo_manager_recommender_recommendation_workload_target

资源画像功能工作负载推荐规格指标(已废弃)

up

指标采集的连接性

ACK专有版ETCD组件(Job名称:etcd)

指标

描述

aliyun_prometheus_agent_append_duration_seconds

阿里云Prometheus探针追加操作耗时(秒)

aliyun_prometheus_agent_job_discovery_status

阿里云Prometheus探针采集作业发现状态

aliyun_prometheus_agent_scrape_custom_error

阿里云Prometheus探针自定义采集错误数

aliyun_prometheus_agent_scrapes_by_target_total

阿里云Prometheus探针按Target抓取总次数

aliyun_prometheus_agent_target_info

阿里云Prometheus探针的Target信息

cpu_utilization_core

CPU核心利用率

etcd_cluster_version

ETCD集群版本

etcd_debugging_auth_revision

ETCD调试认证修订号

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_bucket

ETCD调试磁盘后端提交再平衡持续时间分布(秒)

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_count

ETCD调试MVCC数据库压缩再平衡持续时间计数(秒)

etcd_debugging_disk_backend_commit_rebalance_duration_seconds_sum

ETCD调试磁盘后端提交再平衡持续时间总和(秒)

etcd_debugging_disk_backend_commit_spill_duration_seconds_bucket

ETCD调试磁盘后端提交溢写持续时间分布

etcd_debugging_disk_backend_commit_spill_durati