本文介绍可观测监控 Prometheus 版支持的容器集群基础指标。
可观测监控 Prometheus 版按写入量或者按上报次数收费。指标分为两种类型:基础指标和自定义指标,非基础指标即是自定义指标。其中,基础指标不收费,自定义指标于2020年01月06日开始收费。
可观测监控 Prometheus 版将于2024年11月12日00:00:00(UTC+8)起,对采集的阿里云容器服务集群基础指标范围进行调整,调整后的指标范围请参见下方内容。
请注意,默认采集的容器集群基础指标仅限本文所示范围。
本文范围之外的容器集群指标为自定义指标,是计费指标。收费标准请参见计费说明。
cAdvisor(Job名称:_arms/kubelet/cadvisor)
指标 | 描述 |
container_cpu_usage_seconds_total | 容器CPU使用时间总计 |
container_fs_usage_bytes | 容器文件系统使用字节 |
container_memory_cache | 容器内存缓存 |
container_memory_usage_bytes | 容器内存使用字节 |
container_memory_working_set_bytes | 容器内存工作集字节 |
container_network_receive_bytes_total | 容器网络接收字节总计 |
container_network_transmit_bytes_total | 容器网络传输字节总计 |
container_scrape_error | 容器指标抓取错误 |
DCGM_CUSTOM_CONTAINER_CP_ALLOCATED | 表示为容器分配的一张GPU卡上部分算力占该GPU卡总算力的比例。值的区间为[0,1]。 独占GPU或者共享GPU只申请显存时,该指标的值为0,表示不限制算力。 假设GPU卡有100算力,为一个容器分配30算力,那么为该容器分配的算力比例为30/100=0.3。 |
DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED | 表示为容器分配显存 |
DCGM_CUSTOM_DEV_FB_ALLOCATED | 表示GPU卡已分配显存占总显存的比例,值的区间为[0,1] |
DCGM_CUSTOM_DEV_FB_TOTAL | 表示GPU卡的总显存 |
DCGM_CUSTOM_DEV_HEALTH | GPU健康状态 |
DCGM_CUSTOM_PROCESS_DECODE_UTIL | 表示GPU线程的解码器利用率 |
DCGM_CUSTOM_PROCESS_ENCODE_UTIL | 表示GPU线程的编码器利用率 |
DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL | 表示GPU线程的内存拷贝利用率 |
DCGM_CUSTOM_PROCESS_MEM_USED | 表示GPU线程当前使用的显存 |
DCGM_CUSTOM_PROCESS_SM_UTIL | 表示GPU线程的SM利用率 |
DCGM_CUSTOM_PROF_MEM_BANDWIDTH_USED | 显存带宽使用 |
DCGM_CUSTOM_PROF_TENS_TFPS_USED | 表示GPU张量核心使用情况 |
DCGM_FI_DEV_DEC_UTIL | 表示解码器利用率 |
DCGM_FI_DEV_ENC_UTIL | 表示编码器利用率 |
DCGM_FI_DEV_FB_FREE | 表示帧缓存(Framebuffer Memory)剩余数 |
DCGM_FI_DEV_FB_USED | 表示帧缓存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应 |
DCGM_FI_DEV_GPU_TEMP | 表示GPU温度 |
DCGM_FI_DEV_GPU_UTIL | 表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况 |
DCGM_FI_DEV_MEM_CLOCK | 表示内存时钟频率 |
DCGM_FI_DEV_MEM_COPY_UTIL | 表示内存带宽利用率。以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50% |
DCGM_FI_DEV_POWER_USAGE | 表示功率 |
DCGM_FI_DEV_SM_CLOCK | 表示SM时钟频率 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | 表示从驱动加载开始,已消耗的能量 |
DCGM_FI_DEV_XID_ERRORS | 表示一段时间内,最后发生的XID错误号 |
DCGM_FI_PROF_DRAM_ACTIVE | 表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。 该值表示时间间隔内的平均值,而不是瞬时值。 较高的值表示设备内存的利用率较高。 该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。 假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。 |
DCGM_FI_PROF_NVLINK_RX_BYTES | 表示通过NVLink传输/接收的数据速率,不包括协议标头。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。 |
DCGM_FI_PROF_NVLINK_TX_BYTES | 通过NVLINK传输的总字节数(发送方向) |
DCGM_FI_PROF_PCIE_RX_BYTES | 表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。 |
DCGM_FI_PROF_PCIE_TX_BYTES | 表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。 |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | 表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值表示Tensor Cores的利用率较高。 该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。 |
DCGM_FI_PROF_SM_ACTIVE | 表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是 Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0.8是必要的。 假设一个GPU有N个SM: 一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。 一个核数在一个时间间隔内运行N/5个线程块,此时该值为0.2。 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。 |
machine_cpu_cores | 机器CPU核心数 |
machine_memory_bytes | 机器内存字节数 |
node_exporter_build_info | 节点导出程序构建信息 |
nvidia_gpu_duty_cycle | NVIDIA GPU周期百分比 |
nvidia_gpu_memory_total_bytes | NVIDIA GPU总内存字节 |
nvidia_gpu_memory_used_bytes | NVIDIA GPU使用内存量 |
nvidia_gpu_num_devices | NVIDIA GPU设备数量 |
nvidia_gpu_power_usage_milliwatts | NVIDIA GPU功耗(毫瓦) |
nvidia_gpu_temperature_celsius | NVIDIA GPU温度(摄氏度) |
rdma_service_monitor_local_ack_timeout_err | RDMA网络超时错误数 |
rdma_service_monitor_out_of_seq | RDMA网络数据报文乱序数 |
rdma_service_monitor_packet_seq_err | RDMA网络发包乱序错误数 |
rdma_service_monitor_rx_bytes | RDMA网络接收吞吐 |
rdma_service_monitor_rx_packets | RDMA网络接收包数 |
rdma_service_monitor_tx_bytes | RDMA网络发送吞吐 |
rdma_service_monitor_tx_packets | RDMA网络发送包数 |
up | 指标采集的连接性 |
ACK ControlPlane APIServer(包含ACK Pro控制面组件:APIServer、ETCD、Scheduler、KCM、CCM等组件,ACK专有版集群只包含APIServer)(Job名称:apiserver)
指标 | 描述 |
aggregator_discovery_aggregation_count_total | 聚合器发现聚合计数总数 |
aggregator_openapi_v2_regeneration_count | 聚合器OpenAPI V2重生成次数 |
aggregator_openapi_v2_regeneration_duration | 聚合器OpenAPI V2重生成持续时间 |
aggregator_unavailable_apiservice | 聚合器不可用APIService |
aggregator_unavailable_apiservice_count | 聚合器不可用APIService计数 |
aggregator_unavailable_apiservice_total | 聚合器不可用APIService总数 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus Agent追加耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus Agent作业发现状态 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus Agent按目标抓取总数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus Agent目标信息 |
apiextensions_apiserver_validation_ratcheting_seconds_bucket | APIServer验证递增秒数桶 |
apiextensions_apiserver_validation_ratcheting_seconds_count | APIServer验证递增秒数计数 |
apiextensions_apiserver_validation_ratcheting_seconds_sum | APIServer验证递增秒数总和 |
apiextensions_openapi_v2_regeneration_count | Apiextensions OpenAPI V2重生成次数 |
apiextensions_openapi_v3_regeneration_count | Apiextensions OpenAPI V3重生成次数 |
apiserver_accepted_listall_requests_total | APIServer接受listall请求总数 |
apiserver_admission_controller_admission_duration_seconds_bucket | APIServer准入控制器准入耗时秒数桶 |
apiserver_admission_controller_admission_duration_seconds_count | APIServer准入控制器准入耗时秒数计数 |
apiserver_admission_controller_admission_duration_seconds_sum | APIServer准入控制器准入耗时秒数总和 |
apiserver_admission_step_admission_duration_seconds_bucket | APIServer准入步骤准入耗时秒数桶 |
apiserver_admission_step_admission_duration_seconds_count | APIServer准入步骤准入耗时秒数计数 |
apiserver_admission_step_admission_duration_seconds_sum | APIServer准入步骤准入耗时秒数总和 |
apiserver_admission_step_admission_duration_seconds_summary | APIServer准入步骤准入耗时秒数摘要 |
apiserver_admission_step_admission_duration_seconds_summary_count | APIServer准入步骤准入耗时秒数摘要计数 |
apiserver_admission_step_admission_duration_seconds_summary_sum | APIServer准入步骤准入耗时秒数摘要总和 |
apiserver_admission_webhook_admission_duration_seconds_bucket | APIServer准入Webhook准入耗时秒数桶 |
apiserver_admission_webhook_admission_duration_seconds_count | APIServer准入Webhook准入耗时秒数计数 |
apiserver_admission_webhook_admission_duration_seconds_sum | APIServer准入Webhook准入耗时秒数总和 |
apiserver_admission_webhook_fail_open_count | APIServer准入Webhook故障开放计数 |
apiserver_admission_webhook_rejection_count | APIServer准入Webhook拒绝计数 |
apiserver_admission_webhook_request_total | APIServer准入Webhook请求总数 |
apiserver_audit_error_total | APIServer审计错误总数 |
apiserver_audit_event_total | APIServer审计事件总数 |
apiserver_audit_level_total | APIServer审计级别总数 |
apiserver_audit_requests_rejected_total | APIServer审计请求被拒总数 |
apiserver_authorization_decisions_total | APIServer授权决定总数 |
apiserver_cache_list_fetched_objects_total | APIServer缓存列表获取对象总数 |
apiserver_cache_list_returned_objects_total | APIServer缓存列表返回对象总数 |
apiserver_cache_list_total | APIServer缓存列表操作总数 |
apiserver_cacher_received_events | APIServer缓存接收事件 |
apiserver_cacher_sended_events_latency_milliseconds_bucket | APIServer缓存器发送事件延迟的毫秒数分布情况 |
apiserver_cacher_sended_events_latency_milliseconds_count | APIServer缓存器发送事件延迟的毫秒数计数 |
apiserver_cacher_sended_events_latency_milliseconds_sum | APIServer缓存器发送事件延迟的总毫秒数 |
apiserver_cacher_watcher_channel_length | APIServer缓存器观察者通道长度 |
apiserver_cel_compilation_duration_seconds_bucket | APIServer CEL编译持续时间的秒数分布情况 |
apiserver_cel_compilation_duration_seconds_count | APIServer CEL编译次数计数 |
apiserver_cel_compilation_duration_seconds_sum | APIServer CEL编译总持续时间(秒) |
apiserver_cel_evaluation_duration_seconds_bucket | APIServer CEL评估持续时间的秒数分布情况 |
apiserver_cel_evaluation_duration_seconds_count | APIServer CEL评估次数计数 |
apiserver_cel_evaluation_duration_seconds_sum | APIServer CEL评估总持续时间(秒) |
apiserver_client_certificate_expiration_seconds_bucket | APIServer客户端证书过期前剩余秒数分布情况 |
apiserver_client_certificate_expiration_seconds_count | APIServer客户端证书过期前剩余秒数计数 |
apiserver_client_certificate_expiration_seconds_sum | APIServer客户端证书过期前剩余总秒数 |
apiserver_clusterip_repair_ip_errors_total | APIServer修复ClusterIP错误总数 |
apiserver_clusterip_repair_reconcile_errors_total | APIServer修复ClusterIP reconcile错误总数 |
apiserver_conversion_webhook_duration_seconds_bucket | APIServer转换Webhook持续时间的秒数分布情况 |
apiserver_conversion_webhook_duration_seconds_count | APIServer转换Webhook调用次数计数 |
apiserver_conversion_webhook_duration_seconds_sum | APIServer转换Webhook总持续时间(秒) |
apiserver_conversion_webhook_request_total | APIServer转换Webhook请求总数 |
apiserver_crd_conversion_webhook_duration_seconds_bucket | APIServer CRD转换Webhook持续时间的秒数分布情况 |
apiserver_crd_conversion_webhook_duration_seconds_count | APIServer CRD转换Webhook调用次数计数 |
apiserver_crd_conversion_webhook_duration_seconds_sum | APIServer CRD转换Webhook总持续时间(秒) |
apiserver_crd_webhook_conversion_duration_seconds_bucket | APIServer CRD Webhook转换持续时间的秒数分布情况 |
apiserver_crd_webhook_conversion_duration_seconds_count | APIServer CRD Webhook转换次数计数 |
apiserver_crd_webhook_conversion_duration_seconds_sum | APIServer CRD Webhook转换总持续时间(秒) |
apiserver_created_watchers | APIServer创建的观察者数量 |
apiserver_current_inflight_requests | APIServer当前正在处理的请求数量 |
apiserver_current_inqueue_requests | APIServer当前队列中的请求数量 |
apiserver_dropped_requests_total | APIServer丢弃的请求总数 |
apiserver_encryption_config_controller_automatic_reload_failures_total | APIServer加密配置控制器自动重载失败次数 |
apiserver_encryption_config_controller_automatic_reload_success_total | APIServer加密配置控制器自动重载成功次数 |
apiserver_envelope_encryption_dek_cache_fill_percent | APIServer信封加密DEK缓存填充百分比 |
apiserver_error_watchers | APIServer错误观察者数量 |
apiserver_flowcontrol_current_executing_requests | APIServer流控当前执行的请求数 |
apiserver_flowcontrol_current_executing_seats | APIServer流控当前占用的座位数 |
apiserver_flowcontrol_current_inqueue_requests | APIServer流控队列中的请求数 |
apiserver_flowcontrol_current_inqueue_seats | APIServer流控队列中的座位数 |
apiserver_flowcontrol_current_limit_seats | APIServer流控当前限制的座位数 |
apiserver_flowcontrol_current_r | APIServer流控当前R值 |
apiserver_flowcontrol_demand_seats_average | APIServer流控需求座位的平均值 |
apiserver_flowcontrol_demand_seats_bucket | APIServer流控需求座位分布情况 |
apiserver_flowcontrol_demand_seats_count | APIServer流控需求座位计数 |
apiserver_flowcontrol_demand_seats_high_watermark | APIServer流控需求座位高水位标记 |
apiserver_flowcontrol_demand_seats_smoothed | APIServer流控需求座位平滑值 |
apiserver_flowcontrol_demand_seats_stdev | APIServer流控需求座位标准差 |
apiserver_flowcontrol_demand_seats_sum | APIServer流控需求座位总和 |
apiserver_flowcontrol_dispatch_r | APIServer流控调度R值 |
apiserver_flowcontrol_dispatched_requests_total | APIServer流控已调度的请求数总量 |
apiserver_flowcontrol_latest_s | APIServer流控最近的S值界限 |
apiserver_flowcontrol_lower_limit_seats | APIServer流控下限座位数 |
apiserver_flowcontrol_next_discounted_s_bounds | APIServer流控下次折后S值界限 |
apiserver_flowcontrol_next_s_bounds | APIServer流控下次S值界限 |
apiserver_flowcontrol_nominal_limit_seats | APIServer流控名义上的座位数上限 |
apiserver_flowcontrol_priority_level_request_count_samples_bucket | APIServer流控优先级层级请求数样本分布情况 |
apiserver_flowcontrol_priority_level_request_count_samples_count | APIServer流控优先级层级请求数样本计数 |
apiserver_flowcontrol_priority_level_request_count_samples_sum | APIServer流控优先级层级请求数样本总和 |
apiserver_flowcontrol_priority_level_request_count_watermarks_bucket | APIServer流控优先级层级请求数水位标记分布情况 |
apiserver_flowcontrol_priority_level_request_count_watermarks_count | APIServer流控优先级层级请求数水位标记计数 |
apiserver_flowcontrol_priority_level_request_count_watermarks_sum | APIServer流控优先级层级请求数水位标记总和 |
apiserver_flowcontrol_priority_level_request_utilization_bucket | APIServer流控优先级层级请求利用率分布情况 |
apiserver_flowcontrol_priority_level_request_utilization_count | APIServer流控优先级层级请求利用率计数 |
apiserver_flowcontrol_priority_level_request_utilization_sum | APIServer流控优先级层级请求利用率总和 |
apiserver_flowcontrol_priority_level_seat_count_samples_bucket | APIServer流控优先级层级座位数样本分布情况 |
apiserver_flowcontrol_priority_level_seat_count_samples_count | APIServer流控优先级层级座位数样本计数 |
apiserver_flowcontrol_priority_level_seat_count_samples_sum | APIServer流控优先级层级座位数样本总和 |
apiserver_flowcontrol_priority_level_seat_count_watermarks_bucket | APIServer流控优先级层级座位数水位标记分布情况 |
apiserver_flowcontrol_priority_level_seat_count_watermarks_count | APIServer流控优先级层级座位数水位标记计数 |
apiserver_flowcontrol_priority_level_seat_count_watermarks_sum | APIServer流控优先级层级座位数水位标记总和 |
apiserver_flowcontrol_priority_level_seat_utilization_bucket | APIServer流控优先级层级座位利用率分布情况 |
apiserver_flowcontrol_priority_level_seat_utilization_count | APIServer流控优先级层级座位利用率计数 |
apiserver_flowcontrol_priority_level_seat_utilization_sum | APIServer流控优先级级别座位利用率总和 |
apiserver_flowcontrol_read_vs_write_current_requests_bucket | APIServer流控读写当前请求数量桶 |
apiserver_flowcontrol_read_vs_write_current_requests_count | APIServer流控读写当前请求数量计数 |
apiserver_flowcontrol_read_vs_write_current_requests_sum | APIServer流控读写当前请求数量总和 |
apiserver_flowcontrol_read_vs_write_request_count_samples_bucket | APIServer流控读写请求计数样本桶 |
apiserver_flowcontrol_read_vs_write_request_count_samples_count | APIServer流控读写请求计数样本数量 |
apiserver_flowcontrol_read_vs_write_request_count_samples_sum | APIServer流控读写请求计数样本总和 |
apiserver_flowcontrol_read_vs_write_request_count_watermarks_bucket | APIServer流控读写请求计数水印桶 |
apiserver_flowcontrol_read_vs_write_request_count_watermarks_count | APIServer流控读写请求计数水印数量 |
apiserver_flowcontrol_read_vs_write_request_count_watermarks_sum | APIServer流控读写请求计数水印总和 |
apiserver_flowcontrol_rejected_requests_total | APIServer流控拒绝请求总数 |
apiserver_flowcontrol_request_concurrency_in_use | APIServer流控请求并发请求 |
apiserver_flowcontrol_request_concurrency_limit | APIServer流控请求并发限制 |
apiserver_flowcontrol_request_dispatch_no_accommodation_total | APIServer流控请求调度无法容纳总数 |
apiserver_flowcontrol_request_execution_seconds_bucket | APIServer流控请求执行秒数桶 |
apiserver_flowcontrol_request_execution_seconds_count | APIServer流控请求执行秒数计数 |
apiserver_flowcontrol_request_execution_seconds_sum | APIServer流控请求执行秒数总和 |
apiserver_flowcontrol_request_queue_length_after_enqueue_bucket | APIServer流控请求队列入队后长度桶 |
apiserver_flowcontrol_request_queue_length_after_enqueue_count | APIServer流控请求队列入队后长度计数 |
apiserver_flowcontrol_request_queue_length_after_enqueue_sum | APIServer流控请求队列入队后长度总和 |
apiserver_flowcontrol_request_wait_duration_seconds_bucket | APIServer流控请求等待时长秒数桶 |
apiserver_flowcontrol_request_wait_duration_seconds_count | APIServer流控请求等待时长秒数计数 |
apiserver_flowcontrol_request_wait_duration_seconds_sum | APIServer流控请求等待时长秒数总和 |
apiserver_flowcontrol_seat_fair_frac | APIServer包含了上一个借用调整期间确定的公平分配比例 |
apiserver_flowcontrol_target_seats | APIServer流控目标座位数 |
apiserver_flowcontrol_upper_limit_seats | APIServer流控上限座位数 |
apiserver_flowcontrol_watch_count_samples_bucket | APIServer流控观察计数样本桶 |
apiserver_flowcontrol_watch_count_samples_count | APIServer流控观察计数样本数量 |
apiserver_flowcontrol_watch_count_samples_sum | APIServer流控观察计数样本总和 |
apiserver_flowcontrol_work_estimated_seats_bucket | APIServer流控工作预估座位数桶 |
apiserver_flowcontrol_work_estimated_seats_count | APIServer流控工作预估座位数计数 |
apiserver_flowcontrol_work_estimated_seats_sum | APIServer流控工作预估座位数总和 |
apiserver_init_events_total | APIServer初始化事件总数 |
apiserver_kube_aggregator_x509_insecure_sha1_total | 使用不安全SHA1签名的请求数 |
apiserver_kube_aggregator_x509_missing_san_total | APIServerkube聚合器x509缺失SAN总计 |
apiserver_longrunning_gauge | APIServer长时间运行计量器 |
apiserver_longrunning_requests | APIServer长时间运行请求 |
apiserver_nodeport_repair_reconcile_errors_total | APIServer节点端口修复协调错误总数 |
apiserver_realtime_watchers | APIServer实时观察者数量 |
apiserver_registered_watchers | APIServer已注册观察者数量 |
apiserver_request_aborts_total | APIServer请求中止总数 |
apiserver_request_body_size_bytes_bucket | APIServer请求体大小字节桶 |
apiserver_request_body_size_bytes_count | APIServer请求体大小字节计数 |
apiserver_request_body_size_bytes_sum | APIServer请求体大小字节总和 |
apiserver_request_count | APIServer请求数量 |
apiserver_request_duration_seconds_bucket | APIServer请求处理时间(以秒为单位)的桶 |
apiserver_request_duration_seconds_count | APIServer请求持续时间秒数计数 |
apiserver_request_duration_seconds_sum | APIServer请求持续时间秒数总和 |
apiserver_request_filter_duration_seconds_bucket | APIServer请求过滤器持续时间秒数桶 |
apiserver_request_filter_duration_seconds_count | APIServer请求过滤器持续时间秒数计数 |
apiserver_request_filter_duration_seconds_sum | APIServer请求过滤器持续时间秒数总和 |
apiserver_request_latencies_summary | APIServer请求延迟分布摘要 |
apiserver_request_no_resourceversion_list_total | 无资源版本LIST请求总数 |
apiserver_request_post_timeout_total | API请求POST超时总数 |
apiserver_request_sli_duration_seconds_bucket | API请求SLI(服务等级指示器)持续时间秒数桶 |
apiserver_request_sli_duration_seconds_count | API请求SLI持续时间秒数计数 |
apiserver_request_sli_duration_seconds_sum | API请求SLI持续时间秒数总和 |
apiserver_request_slo_duration_seconds_bucket | API请求SLO(服务等级目标)持续时间秒数桶 |
apiserver_request_slo_duration_seconds_count | API请求SLO持续时间秒数计数 |
apiserver_request_slo_duration_seconds_sum | API请求SLO持续时间秒数总和 |
apiserver_request_terminations_total | API请求终止总数 |
apiserver_request_timestamp_comparison_time_bucket | API请求时间戳比较时间分布桶 |
apiserver_request_timestamp_comparison_time_count | API请求时间戳比较样本计数 |
apiserver_request_timestamp_comparison_time_sum | API请求时间戳比较时间总和 |
apiserver_request_total | API总请求数 |
apiserver_requested_deprecated_apis | 请求已废弃API的APIServer请求数 |
apiserver_response_sizes_bucket | API响应大小分布桶 |
apiserver_response_sizes_count | API响应大小计数 |
apiserver_response_sizes_sum | API响应大小总和 |
apiserver_selfrequest_total | APIServer自我请求总数 |
apiserver_storage_data_key_generation_duration_seconds_bucket | APIServer存储数据密钥生成持续时间秒数桶 |
apiserver_storage_data_key_generation_duration_seconds_count | APIServer存储数据密钥生成持续时间秒数计数 |
apiserver_storage_data_key_generation_duration_seconds_sum | APIServer存储数据密钥生成持续时间秒数总和 |
apiserver_storage_data_key_generation_failures_total | APIServer存储数据密钥生成失败总数 |
apiserver_storage_db_total_size_in_bytes | APIServer存储数据库总大小(字节) |
apiserver_storage_decode_errors_total | APIServer存储解码错误总数 |
apiserver_storage_envelope_transformation_cache_misses_total | APIServer存储信封转换缓存未命中总数 |
apiserver_storage_events_received_total | APIServer存储接收到的事件总数 |
apiserver_storage_list_evaluated_objects_total | APIServer存储列表评估对象总数 |
apiserver_storage_list_fetched_objects_total | APIServer存储列表获取对象总数 |
apiserver_storage_list_returned_objects_total | APIServer存储列表返回对象总数 |
apiserver_storage_list_total | APIServer存储列表操作总数 |
apiserver_storage_objects | APIServer存储对象数量 |
apiserver_storage_size_bytes | APIServer存储大小(字节) |
apiserver_terminated_watchers_total | APIServer终止的观察者总数 |
apiserver_tls_handshake_errors_total | APIServerTLS握手错误请求总数 |
apiserver_too_large_resourceversion_errors | APIServer资源版本过大错误请求数 |
apiserver_watch_cache_events_dispatched_total | APIServer观察缓存分发事件总数 |
apiserver_watch_cache_events_received_total | APIServer观察缓存接收事件总数 |
apiserver_watch_cache_initializations_total | APIServer观察缓存初始化总数 |
apiserver_watch_cache_read_wait_seconds_bucket | APIServer观察缓存读取等待时间秒数桶 |
apiserver_watch_cache_read_wait_seconds_count | APIServer观察缓存读取等待时间秒数计数 |
apiserver_watch_cache_read_wait_seconds_sum | APIServer观察缓存读取等待时间秒数总和 |
apiserver_watch_cache_watch_cache_initializations_total | APIServer观察缓存初始化总数 |
apiserver_watch_events_sizes_bucket | APIServer观察事件大小分布桶 |
apiserver_watch_events_sizes_count | APIServer观察事件大小计数 |
apiserver_watch_events_sizes_sum | APIServer观察事件大小总和 |
apiserver_watch_events_total | APIServer观察事件总数 |
apiserver_webhooks_x509_insecure_sha1_total | 使用不安全SHA1签名的请求数 |
apiserver_webhooks_x509_missing_san_total | APIServerWebhooks中缺失SAN总计 |
authenticated_user_requests | 经过身份验证的用户请求总数 |
authentication_attempts | 认证尝试次数 |
authentication_duration_seconds_bucket | 认证过程持续时间秒数分布桶 |
authentication_duration_seconds_count | 认证过程持续时间秒数计数 |
authentication_duration_seconds_sum | 认证过程持续时间秒数总和 |
authentication_token_cache_active_fetch_count | 认证令牌缓存主动获取计数 |
authentication_token_cache_fetch_total | 认证令牌缓存获取总数 |
authentication_token_cache_request_duration_seconds_bucket | 认证令牌缓存请求耗时秒数分布桶 |
authentication_token_cache_request_duration_seconds_count | 认证令牌缓存请求耗时秒数计数 |
authentication_token_cache_request_duration_seconds_sum | 认证令牌缓存请求耗时秒数总和 |
authentication_token_cache_request_total | 认证令牌缓存请求总数 |
authorization_attempts_total | 授权尝试总数 |
authorization_duration_seconds_bucket | 授权过程持续时间秒数分布桶 |
authorization_duration_seconds_count | 授权过程持续时间秒数计数 |
authorization_duration_seconds_sum | 授权过程持续时间秒数总和 |
cardinality_enforcement_unexpected_categorizations_total | 分类执行意外分类总计 |
count | 计数 |
cpu_utilization_core | CPU使用率(核心) |
disabled_metric_total | 禁用指标总数 |
disabled_metrics_total | 禁用指标总数 |
etcd_bookmark_counts | ETCD书签计数 |
etcd_db_total_size_in_bytes | ETCD数据库总大小(字节) |
etcd_lease_object_counts_bucket | ETCD租约对象计数分布桶 |
etcd_lease_object_counts_count | ETCD租约对象计数总计 |
etcd_lease_object_counts_sum | ETCD租约对象计数总和 |
etcd_object_counts | ETCD对象计数 |
etcd_request_duration_seconds_bucket | ETCD请求处理时间(以秒为单位)的桶计数器 |
etcd_request_duration_seconds_count | ETCD请求持续时间秒数计数 |
etcd_request_duration_seconds_sum | ETCD请求持续时间秒数总和 |
etcd_request_errors_total | ETCD请求错误总数 |
etcd_requests_total | ETCD请求总数 |
etcd_watcher_channel_length | ETCD观察者通道长度 |
etcd_watcher_received_events | ETCD观察者接收到的事件 |
etcd_watcher_sended_events_latency_milliseconds_bucket | ETCD观察者发送事件延迟毫秒分布桶 |
etcd_watcher_sended_events_latency_milliseconds_count | ETCD观察者发送事件延迟毫秒计数 |
etcd_watcher_sended_events_latency_milliseconds_sum | ETCD观察者发送事件延迟毫秒总和 |
field_validation_request_duration_seconds_bucket | 字段验证请求持续时间秒数分布桶 |
field_validation_request_duration_seconds_count | 字段验证请求持续时间秒数计数 |
field_validation_request_duration_seconds_sum | 字段验证请求持续时间秒数总和 |
get_token_count | 获取令牌计数 |
get_token_fail_count | 获取令牌失败计数 |
go_cgo_go_to_c_calls_calls_total | Go CGO调用C函数次数总计 |
go_cpu_classes_gc_mark_assist_cpu_seconds_total | Go GC标记辅助CPU秒数总计 |
go_cpu_classes_gc_mark_dedicated_cpu_seconds_total | Go GC专用标记CPU秒数总计 |
go_cpu_classes_gc_mark_idle_cpu_seconds_total | Go GC空闲标记CPU秒数总计 |
go_cpu_classes_gc_pause_cpu_seconds_total | Go GC暂停CPU秒数总计 |
go_cpu_classes_gc_total_cpu_seconds_total | Go GC总CPU秒数总计 |
go_cpu_classes_idle_cpu_seconds_total | Go CPU空闲时间总计 |
go_cpu_classes_scavenge_assist_cpu_seconds_total | Go GC辅助扫描CPU秒数总计 |
go_cpu_classes_scavenge_background_cpu_seconds_total | Go GC后台扫描CPU秒数总计 |
go_cpu_classes_scavenge_total_cpu_seconds_total | Go GC总扫描CPU秒数总计 |
go_cpu_classes_total_cpu_seconds_total | 总CPU时间(秒) |
go_cpu_classes_user_cpu_seconds_total | 用户CPU时间(秒) |
go_gc_cycles_automatic_gc_cycles_total | 自动GC周期总数 |
go_gc_cycles_forced_gc_cycles_total | 强制GC周期总数 |
go_gc_cycles_total_gc_cycles_total | 总GC周期数 |
go_gc_duration_seconds | GC暂停时间(秒) |
go_gc_duration_seconds_count | GC暂停时间计数 |
go_gc_duration_seconds_sum | GC暂停时间总和 |
go_gc_gogc_percent | GO GC目标百分比 |
go_gc_gomemlimit_bytes | GC内存限制(字节) |
go_gc_heap_allocs_by_size_bytes_bucket | 按大小分配的堆内存(字节)- 桶 |
go_gc_heap_allocs_by_size_bytes_count | 按大小分配的堆内存(字节)- 计数 |
go_gc_heap_allocs_by_size_bytes_sum | 按大小分配的堆内存(字节)- 总和 |
go_gc_heap_allocs_by_size_bytes_total_bucket | 总计按大小分配的堆内存(字节)- 桶 |
go_gc_heap_allocs_by_size_bytes_total_count | 总计按大小分配的堆内存(字节)- 计数 |
go_gc_heap_allocs_by_size_bytes_total_sum | 总计按大小分配的堆内存(字节)- 总和 |
go_gc_heap_allocs_bytes_total | 总堆分配字节数 |
go_gc_heap_allocs_objects_total | 总堆分配对象数 |
go_gc_heap_frees_by_size_bytes_bucket | 按大小释放的堆内存(字节)- 桶 |
go_gc_heap_frees_by_size_bytes_count | 按大小释放的堆内存(字节)- 计数 |
go_gc_heap_frees_by_size_bytes_sum | 按大小释放的堆内存(字节)- 总和 |
go_gc_heap_frees_by_size_bytes_total_bucket | 总计按大小释放的堆内存(字节)- 桶 |
go_gc_heap_frees_by_size_bytes_total_count | 总计按大小释放的堆内存(字节)- 计数 |
go_gc_heap_frees_by_size_bytes_total_sum | 总计按大小释放的堆内存(字节)- 总和 |
go_gc_heap_frees_bytes_total | 总堆释放字节数 |
go_gc_heap_frees_objects_total | 总堆释放对象数 |
go_gc_heap_goal_bytes | 堆目标大小(字节) |
go_gc_heap_live_bytes | 堆存活字节数 |
go_gc_heap_objects_objects | 堆对象数 |
go_gc_heap_tiny_allocs_objects_total | 微小对象分配总数 |
go_gc_limiter_last_enabled_gc_cycle | 上次启用GC周期 |
go_gc_pauses_seconds_bucket | GC暂停时间分布- 桶 |
go_gc_pauses_seconds_count | GC暂停时间分布- 计数 |
go_gc_pauses_seconds_sum | GC暂停时间分布- 总和 |
go_gc_pauses_seconds_total_bucket | 总计GC暂停时间分布- 桶 |
go_gc_pauses_seconds_total_count | 总计GC暂停时间分布- 计数 |
go_gc_pauses_seconds_total_sum | 总计GC暂停时间分布- 总和 |
go_gc_scan_globals_bytes | 扫描全局变量字节数 |
go_gc_scan_heap_bytes | 扫描堆字节数 |
go_gc_scan_stack_bytes | 扫描栈字节数 |
go_gc_scan_total_bytes | 总扫描字节数 |
go_gc_stack_starting_size_bytes | 栈初始大小(字节) |
go_godebug_non_default_behavior_execerrdot_events_total | 非默认行为调试计数- execerrdot |
go_godebug_non_default_behavior_gocachehash_events_total | 非默认行为调试计数- gocachehash |
go_godebug_non_default_behavior_gocachetest_events_total | 非默认行为调试计数- gocachetest |
go_godebug_non_default_behavior_gocacheverify_events_total | 非默认行为调试计数- gocacheverify |
go_godebug_non_default_behavior_gotypesalias_events_total | 非默认行为调试计数- gotypesalias |
go_godebug_non_default_behavior_http2client_events_total | 非默认行为调试计数- http2client |
go_godebug_non_default_behavior_http2server_events_total | 非默认行为调试计数- http2server |
go_godebug_non_default_behavior_httplaxcontentlength_events_total | 非默认行为调试计数- httplaxcontentlength |
go_godebug_non_default_behavior_httpmuxgo121_events_total | 非默认行为调试计数- httpmuxgo121 |
go_godebug_non_default_behavior_installgoroot_events_total | 非默认行为调试计数- installgoroot |
go_godebug_non_default_behavior_jstmpllitinterp_events_total | 非默认行为调试计数- jstmpllitinterp |
go_godebug_non_default_behavior_multipartmaxheaders_events_total | 非默认行为调试计数- multipartmaxheaders |
go_godebug_non_default_behavior_multipartmaxparts_events_total | 非默认行为调试计数- multipartmaxparts |
go_godebug_non_default_behavior_multipathtcp_events_total | 非默认行为调试计数- multipathtcp |
go_godebug_non_default_behavior_panicnil_events_total | 非默认行为调试计数- panicnil |
go_godebug_non_default_behavior_randautoseed_events_total | 非默认行为调试计数- randautoseed |
go_godebug_non_default_behavior_tarinsecurepath_events_total | 非默认行为调试计数- tarinsecurepath |
go_godebug_non_default_behavior_tls10server_events_total | 非默认行为调试计数- tls10server |
go_godebug_non_default_behavior_tlsmaxrsasize_events_total | 非默认行为调试计数- tlsmaxrsasize |
go_godebug_non_default_behavior_tlsrsakex_events_total | 非默认行为调试计数- tlsrsakex |
go_godebug_non_default_behavior_tlsunsafeekm_events_total | 非默认行为调试计数- tlsunsafeekm |
go_godebug_non_default_behavior_x509sha1_events_total | 非默认行为调试计数- x509sha1 |
go_godebug_non_default_behavior_x509usefallbackroots_events_total | 非默认行为调试计数- x509usefallbackroots |
go_godebug_non_default_behavior_x509usepolicies_events_total | 非默认行为调试计数- x509usepolicies |
go_godebug_non_default_behavior_zipinsecurepath_events_total | 非默认行为调试计数- zipinsecurepath |
go_goroutines | goroutine数量 |
go_info | 系统信息 |
go_memory_classes_heap_free_bytes | Go内存类别 - 堆空闲字节数 |
go_memory_classes_heap_objects_bytes | Go内存类别 - 堆对象字节数 |
go_memory_classes_heap_released_bytes | Go内存类别 - 堆已释放字节数 |
go_memory_classes_heap_stacks_bytes | Go内存类别 - 堆栈字节数 |
go_memory_classes_heap_unused_bytes | Go内存类别 - 堆未使用字节数 |
go_memory_classes_metadata_mcache_free_bytes | Go内存类别 - 元数据mcache空闲字节数 |
go_memory_classes_metadata_mcache_inuse_bytes | Go内存类别 - 元数据mcache使用中字节数 |
go_memory_classes_metadata_mspan_free_bytes | Go内存类别 - 元数据mspan空闲字节数 |
go_memory_classes_metadata_mspan_inuse_bytes | Go内存类别 - 元数据mspan使用中字节数 |
go_memory_classes_metadata_other_bytes | Go内存类别 - 其他元数据字节数 |
go_memory_classes_os_stacks_bytes | Go内存类别 - 操作系统栈字节数 |
go_memory_classes_other_bytes | Go内存类别 - 其他字节数 |
go_memory_classes_profiling_buckets_bytes | Go内存类别 - 分析桶字节数 |
go_memory_classes_total_bytes | Go内存类别 - 总字节数 |
go_memstats_alloc_bytes | Go内存统计 - 分配字节数 |
go_memstats_alloc_bytes_total | Go内存统计 - 累计分配字节数 |
go_memstats_buck_hash_sys_bytes | Go内存统计 - 哈希表系统字节数 |
go_memstats_frees_total | Go内存统计 - 总释放次数 |
go_memstats_gc_cpu_fraction | Go内存统计 - GC CPU占比 |
go_memstats_gc_sys_bytes | Go内存统计 - GC系统字节数 |
go_memstats_heap_alloc_bytes | Go内存统计 - 堆分配字节数 |
go_memstats_heap_idle_bytes | Go内存统计 - 堆空闲字节数 |
go_memstats_heap_inuse_bytes | Go内存统计 - 堆使用中字节数 |
go_memstats_heap_objects | Go内存统计 - 堆对象数量 |
go_memstats_heap_released_bytes | Go内存统计 - 堆已释放字节数 |
go_memstats_heap_sys_bytes | Go内存统计 - 堆系统字节数 |
go_memstats_last_gc_time_seconds | Go内存统计 - 上次GC时间(秒) |
go_memstats_lookups_total | Go内存统计 - 查找总数 |
go_memstats_mallocs_total | Go内存统计 - 总分配次数 |
go_memstats_mcache_inuse_bytes | Go内存统计 - mcache使用中字节数 |
go_memstats_mcache_sys_bytes | Go内存统计 - mcache系统字节数 |
go_memstats_mspan_inuse_bytes | Go内存统计 - mspan使用中字节数 |
go_memstats_mspan_sys_bytes | Go内存统计 - mspan系统字节数 |
go_memstats_next_gc_bytes | Go内存统计 - 下次GC释放字节数 |
go_memstats_other_sys_bytes | Go内存统计 - 其他系统字节数 |
go_memstats_stack_inuse_bytes | Go内存统计 - 栈使用中字节数 |
go_memstats_stack_sys_bytes | Go内存统计 - 栈系统字节数 |
go_memstats_sys_bytes | Go内存统计 - 系统字节总计 |
go_sched_gomaxprocs_threads | Go调度器 - GOMAXPROCS线程数 |
go_sched_goroutines_goroutines | Go调度器 - 协程数量 |
go_sched_latencies_seconds_bucket | Go调度器 - 调度延迟秒数分桶 |
go_sched_latencies_seconds_count | Go调度器 - 调度延迟秒数计数 |
go_sched_latencies_seconds_sum | Go调度器 - 调度延迟秒数总和 |
go_sched_pauses_stopping_gc_seconds_bucket | Go调度器 - 暂停时间(停止GC)秒数分桶 |
go_sched_pauses_stopping_gc_seconds_count | Go调度器 - 暂停时间(停止GC)秒数样本计数 |
go_sched_pauses_stopping_gc_seconds_sum | Go调度器 - 暂停时间(停止GC)秒数总和 |
go_sched_pauses_stopping_other_seconds_bucket | Go调度器 - 暂停时间(停止其他)秒数分桶 |
go_sched_pauses_stopping_other_seconds_count | Go调度器 - 暂停时间(停止其他)秒数计数 |
go_sched_pauses_stopping_other_seconds_sum | Go调度器 - 暂停时间(停止其他)秒数总和 |
go_sched_pauses_total_gc_seconds_bucket | Go调度器 - 暂停时间(总GC)秒数分桶 |
go_sched_pauses_total_gc_seconds_count | Go调度器 - 暂停时间(总GC)秒数计数 |
go_sched_pauses_total_gc_seconds_sum | Go调度器 - 暂停时间(总GC)秒数总和 |
go_sched_pauses_total_other_seconds_bucket | Go调度器 - 暂停时间(总其他)秒数分桶 |
go_sched_pauses_total_other_seconds_count | Go调度器 - 暂停时间(总其他)秒数计数 |
go_sched_pauses_total_other_seconds_sum | 调度器因非主要活动导致的所有goroutine暂停时间的累计总和 |
go_sync_mutex_wait_total_seconds_total | Go同步 - Mutex等待总秒数 |
go_threads | Go线程数 |
grpc_client_handled_total | gRPC客户端:处理总数 |
grpc_client_msg_received_total | gRPC客户端:接收消息总数 |
grpc_client_msg_sent_total | gRPC客户端:发送消息总数 |
grpc_client_started_total | gRPC客户端:启动总数 |
hidden_metric_total | 隐藏指标:总数 |
hidden_metrics_total | 隐藏指标:总数 |
http_request_duration_microseconds | HTTP请求:持续时间(微秒) |
http_request_size_bytes | HTTP请求:大小(字节) |
http_requests_total | HTTP请求:总数 |
http_response_size_bytes | HTTP响应:大小(字节) |
job | job名称 |
job_instance_mode | job实例模式 |
kube_apiserver_clusterip_allocator_allocated_ips | Kubernetes APIServer:ClusterIP分配器已分配IP数 |
kube_apiserver_clusterip_allocator_allocation_errors_total | Kubernetes APIServer:ClusterIP分配器分配错误总数 |
kube_apiserver_clusterip_allocator_allocation_total | Kubernetes APIServer:ClusterIP分配器分配总数 |
kube_apiserver_clusterip_allocator_available_ips | Kubernetes APIServer:ClusterIP分配器可用IP数 |
kube_apiserver_nodeport_allocator_allocated_ports | Kubernetes APIServer:NodePort分配器已分配端口数 |
kube_apiserver_nodeport_allocator_allocation_errors_total | Kubernetes APIServer:NodePort分配器分配错误总数 |
kube_apiserver_nodeport_allocator_allocation_total | Kubernetes APIServer:NodePort分配器分配总数 |
kube_apiserver_nodeport_allocator_available_ports | Kubernetes APIServer:NodePort分配器可用端口数 |
kube_apiserver_pod_logs_backend_tls_failure_total | Kubernetes APIServer:TLS验证失败而导致的pods/logs请求总数 |
kube_apiserver_pod_logs_insecure_backend_total | Kubernetes APIServer:不安全pods/logs请求总数 |
kube_apiserver_pod_logs_pods_logs_backend_tls_failure_total | Kubernetes APIServer:TLS验证失败而导致的pods/logs请求总数 |
kube_apiserver_pod_logs_pods_logs_insecure_backend_total | Kubernetes APIServer:不安全pods/logs请求总数 |
kubelet_container_log_filesystem_used_bytes | Kubelet:容器日志文件系统使用字节数 |
kubelet_node_name | Kubelet:节点名称 |
kubelet_pleg_relist_duration_seconds_bucket | Kubelet:PLEG重列持续时间秒数分桶 |
kubelet_pod_worker_duration_seconds_bucket | Kubelet:Pod工作器持续时间秒数分桶 |
kubelet_volume_stats_available_bytes | Kubelet:卷统计可用字节数 |
kubelet_volume_stats_capacity_bytes | Kubelet:卷统计容量字节数 |
kubelet_volume_stats_inodes | Kubelet:卷统计可用inode数 |
kubelet_volume_stats_inodes_free | Kubelet:卷统计空闲inode数 |
kubelet_volume_stats_inodes_used | Kubelet:卷统计已用inode数 |
kubelet_volume_stats_used_bytes | Kubelet:卷统计已用字节数 |
kubernetes_build_info | Kubernetes构建信息 |
kubernetes_feature_enabled | Kubernetes功能:启用状态 |
last_list_all_response_size_in_bytes | 最近一次列表所有响应大小(字节) |
memory_utilization_byte | 内存利用率:字节数 |
node_authorizer_graph_actions_duration_seconds_bucket | 节点授权器:图操作耗时秒数分桶 |
node_authorizer_graph_actions_duration_seconds_count | 节点授权器:图操作耗时秒数计数 |
node_authorizer_graph_actions_duration_seconds_sum | 节点授权器:图操作耗时秒数总和 |
pod_security_evaluations_total | Pod安全评估总次数 |
pod_security_exemptions_total | Pod安全豁免总次数 |
process_cpu_seconds_total | 进程CPU使用秒数总计 |
process_max_fds | 进程最大文件描述符数 |
process_open_fds | 进程打开的文件描述符数 |
process_resident_memory_bytes | 进程驻留内存字节数 |
process_start_time_seconds | 进程启动时间(秒) |
process_virtual_memory_bytes | 进程虚拟内存字节数 |
process_virtual_memory_max_bytes | 进程虚拟内存最大字节数 |
registered_metric_total | 注册指标:总数 |
registered_metrics_total | 注册指标:总计 |
rest_client_exec_plugin_certificate_rotation_age_bucket | REST客户端插件:证书轮换年龄秒数分桶 |
rest_client_exec_plugin_certificate_rotation_age_count | REST客户端插件:证书轮换年龄秒数计数 |
rest_client_exec_plugin_certificate_rotation_age_sum | REST客户端插件:证书轮换年龄秒数总和 |
rest_client_exec_plugin_ttl_seconds | REST客户端插件:证书TTL秒数 |
rest_client_request_duration_seconds_bucket | REST客户端:请求耗时秒数分桶 |
rest_client_request_duration_seconds_count | REST客户端:请求耗时秒数计数 |
rest_client_request_duration_seconds_sum | REST客户端:请求耗时秒数总和 |
rest_client_request_latency_seconds_bucket | REST客户端:请求延迟秒数分桶 |
rest_client_request_size_bytes_bucket | REST客户端:请求大小(字节)分桶 |
rest_client_request_size_bytes_count | REST客户端:请求大小(字节)计数 |
rest_client_request_size_bytes_sum | REST客户端:请求大小(字节)总和 |
rest_client_requests_total | REST客户端:请求总数 |
rest_client_response_size_bytes_bucket | REST客户端:响应大小(字节)分桶 |
rest_client_response_size_bytes_count | REST客户端:响应大小(字节)计数 |
rest_client_response_size_bytes_sum | REST客户端:响应大小(字节)总和 |
rest_client_transport_cache_entries | REST客户端:传输缓存条目数 |
rest_client_transport_create_calls_total | REST客户端:传输创建调用总数 |
scheduler_pending_pods | 调度器:待调度Pod数 |
scheduler_pod_scheduling_attempts_bucket | 调度器:Pod调度尝试次数分桶 |
scheduler_scheduler_cache_size | 调度器:调度器缓存大小 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
serviceaccount_invalid_legacy_auto_token_uses_total | 无效的旧版自动服务账户令牌使用次数总计 |
serviceaccount_legacy_auto_token_uses_total | 旧版自动服务账户令牌使用次数总计 |
serviceaccount_legacy_manual_token_uses_total | 旧版手动服务账户令牌使用次数总计 |
serviceaccount_legacy_tokens_total | 旧版服务账户令牌总数 |
serviceaccount_stale_tokens_total | 陈旧的服务账户令牌总数 |
serviceaccount_valid_tokens_total | 有效服务账户令牌总数 |
ssh_tunnel_open_count | SSH隧道打开计数 |
ssh_tunnel_open_fail_count | SSH隧道打开失败计数 |
up | 指标采集的连接性 |
watch_cache_capacity | 监控缓存容量 |
watch_cache_capacity_decrease_total | 监控缓存容量减少总计 |
watch_cache_capacity_increase_total | 监控缓存容量增加总计 |
workqueue_adds_total | 工作队列添加总数 |
workqueue_depth | 工作队列深度 |
workqueue_longest_running_processor_seconds | 工作队列中最长运行处理器时间(秒) |
workqueue_queue_duration_seconds_bucket | 工作队列排队时长(秒)分位桶 |
workqueue_queue_duration_seconds_count | 工作队列排队时长(秒)计数 |
workqueue_queue_duration_seconds_sum | 工作队列排队时长(秒)总和 |
workqueue_retries_total | 工作队列重试总数 |
workqueue_unfinished_work_seconds | 工作队列未完成工作时长(秒) |
workqueue_work_duration_seconds_bucket | 工作队列工作时长(秒)分位桶 |
workqueue_work_duration_seconds_count | 工作队列工作时长(秒)计数 |
workqueue_work_duration_seconds_sum | 工作队列工作时长(秒)总和 |
Node Exporter(Job名称:node-exporter)
指标 | 描述 |
ALERTS | 告警 |
ALERTS_FOR_STATE | 针对状态的告警数 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
count | 计数 |
go_gc_duration_seconds | Go GC耗时(秒) |
go_gc_duration_seconds_count | Go GC耗时(秒) |
go_gc_duration_seconds_sum | Go GC耗时总和 |
go_goroutines | Go运行协程数 |
go_info | Go信息 |
go_memstats_alloc_bytes | Go内存统计 - 分配字节数 |
go_memstats_alloc_bytes_total | Go内存统计 - 累计分配字节数 |
go_memstats_buck_hash_sys_bytes | Go内存统计 - 哈希表系统字节数 |
go_memstats_frees_total | Go内存统计 - 总释放次数 |
go_memstats_gc_cpu_fraction | Go内存统计 - GC CPU占比 |
go_memstats_gc_sys_bytes | Go内存统计 - GC系统字节数 |
go_memstats_heap_alloc_bytes | Go内存统计 - 堆分配字节数 |
go_memstats_heap_idle_bytes | Go内存统计 - 堆空闲字节数 |
go_memstats_heap_inuse_bytes | Go内存统计 - 堆使用中字节数 |
go_memstats_heap_objects | Go内存统计 - 堆对象数量 |
go_memstats_heap_released_bytes | Go内存统计 - 堆已释放字节数 |
go_memstats_heap_sys_bytes | Go内存统计 - 堆系统字节数 |
go_memstats_last_gc_time_seconds | Go内存统计 - 上次GC时间(秒) |
go_memstats_lookups_total | Go内存统计 - 查找总数 |
go_memstats_mallocs_total | Go内存统计 - 总分配次数 |
go_memstats_mcache_inuse_bytes | Go内存统计 - mcache使用中字节数 |
go_memstats_mcache_sys_bytes | Go内存统计 - mcache系统字节数 |
go_memstats_mspan_inuse_bytes | Go内存统计 - mspan使用中字节数 |
go_memstats_mspan_sys_bytes | Go内存统计 - mspan系统字节数 |
go_memstats_next_gc_bytes | Go内存统计 - 下次GC释放字节数 |
go_memstats_other_sys_bytes | Go内存统计 - 其他系统字节数 |
go_memstats_stack_inuse_bytes | Go内存统计 - 栈使用中字节数 |
go_memstats_stack_sys_bytes | Go内存统计 - 栈系统字节数 |
go_memstats_sys_bytes | Go内存统计 - 系统字节总计 |
go_threads | Go线程数 |
instance | 实例 |
instance_device | 实例设备 |
job | job名称 |
k8s_node_cpu_utilization | Kubernetes节点CPU使用率 |
k8s_node_disk_utilization | Kubernetes节点磁盘利用率 |
k8s_node_memory_utilization | Kubernetes节点内存利用率 |
node_arp_entries | 节点ARP条目数 |
node_boot_time_seconds | 节点启动时间(秒) |
node_context_switches_total | 节点上下文切换总数 |
node_cooling_device_cur_state | 节点冷却设备当前状态 |
node_cooling_device_max_state | 节点冷却设备最大状态 |
node_cpu_core_throttles_total | 节点CPU核心节流次数总计 |
node_cpu_frequency_max_hertz | 节点CPU最大频率(赫兹) |
node_cpu_frequency_min_hertz | 节点CPU最小频率(赫兹) |
node_cpu_guest_seconds_total | 节点CPU虚拟机时间总计 |
node_cpu_package_throttles_total | 节点CPU封装节流次数总计 |
node_cpu_scaling_frequency_hertz | 节点CPU动态频率(赫兹) |
node_cpu_scaling_frequency_max_hertz | 节点CPU动态频率最大值(赫兹) |
node_cpu_scaling_frequency_min_hertz | 节点CPU动态频率最小值(赫兹) |
node_cpu_scaling_governor | 节点CPU动态调速器 |
node_cpu_seconds_total | 节点CPU使用时间总计 |
node_disk_device_mapper_info | 节点磁盘DeviceMapper信息 |
node_disk_discard_time_seconds_total | 节点磁盘丢弃时间总计(秒) |
node_disk_discarded_sectors_total | 节点磁盘丢弃扇区总计 |
node_disk_discards_completed_total | 节点磁盘丢弃完成总计 |
node_disk_discards_merged_total | 节点磁盘丢弃合并总计 |
node_disk_filesystem_info | 节点磁盘文件系统信息 |
node_disk_flush_requests_time_seconds_total | 节点磁盘刷新请求时间总计(秒) |
node_disk_flush_requests_total | 节点磁盘刷新请求总计 |
node_disk_info | 节点磁盘信息 |
node_disk_io_now | 节点磁盘I/O当前量 |
node_disk_io_time_seconds_total | 节点磁盘I/O时间总计(秒) |
node_disk_io_time_weighted_seconds_total | 节点磁盘I/O加权时间总计(秒) |
node_disk_read_bytes_total | 节点磁盘读取字节总计 |
node_disk_read_time_seconds_total | 节点磁盘读取时间总计(秒) |
node_disk_reads_completed_total | 节点磁盘读取完成总数 |
node_disk_reads_merged_total | 节点磁盘读取合并总数 |
node_disk_write_time_seconds_total | 节点磁盘写入时间总秒数 |
node_disk_writes_completed_total | 节点磁盘写入完成总数 |
node_disk_writes_merged_total | 节点磁盘写入合并总数 |
node_disk_written_bytes_total | 节点磁盘写入字节总数 |
node_dmi_info | 节点DMI信息 |
node_edac_correctable_errors_total | 节点EDAC可纠正错误总数 |
node_edac_csrow_correctable_errors_total | 节点EDAC csrow可纠正错误总数 |
node_edac_csrow_uncorrectable_errors_total | 节点EDAC csrow不可纠正错误总数 |
node_edac_uncorrectable_errors_total | 节点EDAC不可纠正错误总数 |
node_entropy_available_bits | 节点熵可用位数 |
node_entropy_pool_size_bits | 节点熵池大小位数 |
node_exporter_build_info | 节点导出器构建信息 |
node_filefd_allocated | 节点文件描述符已分配 |
node_filefd_maximum | 节点文件描述符最大值 |
node_filesystem_avail_bytes | 节点文件系统可用字节数 |
node_filesystem_device_error | 节点文件系统设备错误 |
node_filesystem_files | 节点文件系统文件数 |
node_filesystem_files_free | 节点文件系统空闲文件数 |
node_filesystem_free_bytes | 节点文件系统空闲字节数 |
node_filesystem_readonly | 节点文件系统只读状态 |
node_filesystem_size_bytes | 节点文件系统总大小字节数 |
node_forks_total | 节点进程forks总数 |
node_infiniband_excessive_buffer_overrun_errors_total | 节点InfiniBand过量缓冲区溢出错误总数 |
node_infiniband_info | 节点InfiniBand信息 |
node_infiniband_link_downed_total | 节点InfiniBand链路断开总数 |
node_infiniband_link_error_recovery_total | 节点InfiniBand链路错误恢复总数 |
node_infiniband_local_link_integrity_errors_total | 节点InfiniBand本地链接完整性错误总数 |
node_infiniband_multicast_packets_received_total | 节点InfiniBand多播接收包总数 |
node_infiniband_multicast_packets_transmitted_total | 节点InfiniBand多播发送包总数 |
node_infiniband_physical_state_id | 节点InfiniBand网络接口物理状态ID |
node_infiniband_port_constraint_errors_received_total | 节点InfiniBand端口约束错误接收总数 |
node_infiniband_port_constraint_errors_transmitted_total | 节点InfiniBand端口约束错误发送总数 |
node_infiniband_port_data_received_bytes_total | 节点InfiniBand端口数据接收字节总数 |
node_infiniband_port_data_transmitted_bytes_total | 节点InfiniBand端口数据发送字节总数 |
node_infiniband_port_discards_transmitted_total | 节点InfiniBand端口丢弃发送总数 |
node_infiniband_port_errors_received_total | 节点InfiniBand端口错误接收总数 |
node_infiniband_port_packets_received_total | 节点InfiniBand端口接收包总数 |
node_infiniband_port_packets_transmitted_total | 节点InfiniBand端口发送包总数 |
node_infiniband_port_receive_remote_physical_errors_total | 节点InfiniBand端口接收远程物理错误总数 |
node_infiniband_port_receive_switch_relay_errors_total | 节点InfiniBand端口接收交换机中继错误总数 |
node_infiniband_port_transmit_wait_total | 节点InfiniBand端口发送等待总数 |
node_infiniband_rate_bytes_per_second | 节点InfiniBand速率每秒字节数 |
node_infiniband_state_id | 节点InfiniBand状态ID |
node_infiniband_symbol_error_total | 节点InfiniBand符号错误总数 |
node_infiniband_unicast_packets_received_total | 节点InfiniBand单播接收包总数 |
node_infiniband_unicast_packets_transmitted_total | 节点InfiniBand单播发送包总数 |
node_infiniband_vl15_dropped_total | 节点InfiniBand VL15丢弃总数 |
node_intr_total | 节点中断总数 |
node_load1 | 节点1分钟负载 |
node_load15 | 节点15分钟负载 |
node_load5 | 节点5分钟负载 |
node_memory_Active_anon_bytes | 节点匿名活跃内存大小(字节) |
node_memory_Active_bytes | 节点活跃内存大小(字节) |
node_memory_Active_file_bytes | 节点内存活跃文件大小(字节) |
node_memory_AnonHugePages_bytes | 节点内存匿名大页大小(字节) |
node_memory_AnonPages_bytes | 节点内存匿名页面大小(字节) |
node_memory_Bounce_bytes | 节点内存bounce页面大小(字节) |
node_memory_Buffers_bytes | 节点buffers内存大小(字节) |
node_memory_Cached_bytes | 节点cached内存大小(字节) |
node_memory_CmaFree_bytes | 节点CMA空闲内存大小(字节) |
node_memory_CmaTotal_bytes | 节点CMA内存总大小(字节) |
node_memory_CommitLimit_bytes | 节点内存提交限制大小(字节) |
node_memory_Committed_AS_bytes | 节点内存已提交地址空间大小(字节) |
node_memory_DirectMap1G_bytes | 节点1GB直接映射内存大小(字节) |
node_memory_DirectMap2M_bytes | 节点2MB直接映射内存大小(字节) |
node_memory_DirectMap4k_bytes | 节点4KB直接映射内存大小(字节) |
node_memory_Dirty_bytes | 节点脏内存大小(字节) |
node_memory_DupText_bytes | 节点重复文本内存大小(字节) |
node_memory_FileHugePages_bytes | 节点文件大页内存大小(字节) |
node_memory_FilePmdMapped_bytes | 节点通过文件映射方式分配的物理内存的大小(字节) |
node_memory_HardwareCorrupted_bytes | 节点硬件损坏内存大小(字节) |
node_memory_HugePages_Free | 节点内存大页空闲量 |
node_memory_HugePages_Rsvd | 节点内存大页预留量 |
node_memory_HugePages_Surp | 节点内存大页盈余量 |
node_memory_HugePages_Total | 节点大页总数 |
node_memory_Hugepagesize_bytes | 节点大页大小(字节) |
node_memory_Hugetlb_bytes | 节点Hugetlb内存大小(字节) |
node_memory_Inactive_anon_bytes | 节点非活动匿名内存大小(字节) |
node_memory_Inactive_bytes | 节点非活跃内存大小(字节) |
node_memory_Inactive_file_bytes | 节点非活跃文件内存大小(字节) |
node_memory_KernelStack_bytes | 节点KernelStack内存大小(字节) |
node_memory_KReclaimable_bytes | 节点KReclaimable内存大小(字节) |
node_memory_Mapped_bytes | 节点已映射的内存大小(字节) |
node_memory_MemAvailable_bytes | 节点可用内存大小(字节) |
node_memory_MemFree_bytes | 节点空闲内存大小(字节) |
node_memory_MemTotal_bytes | 节点总内存大小(字节) |
node_memory_MemZeroed_bytes | 节点置零内存大小(字节) |
node_memory_Mlocked_bytes | 节点锁定内存大小(字节) |
node_memory_NFS_Unstable_bytes | 节点NFS不稳定内存大小(字节) |
node_memory_PageTables_bytes | 节点页表内存大小(字节) |
node_memory_Percpu_bytes | 节点每CPU内存大小(字节) |
node_memory_Shmem_bytes | 节点共享内存大小(字节) |
node_memory_ShmemHugePages_bytes | 节点共享大页内存大小(字节) |
node_memory_ShmemPmdMapped_bytes | 节点共享内存映射PMD大小(字节) |
node_memory_Slab_bytes | 节点Slab内存大小(字节) |
node_memory_SReclaimable_bytes | 节点SReclaimable内存大小(字节) |
node_memory_SUnreclaim_bytes | 节点SUnreclaim内存大小(字节) |
node_memory_SwapCached_bytes | 节点缓存交换空间大小(字节) |
node_memory_SwapFree_bytes | 节点空闲交换空间大小(字节) |
node_memory_SwapTotal_bytes | 节点总交换空间大小(字节) |
node_memory_Unevictable_bytes | 节点不可驱逐内存大小(字节) |
node_memory_VmallocChunk_bytes | 节点vmallocChunk内存大小(字节) |
node_memory_VmallocTotal_bytes | 节点vmalloc总内存大小(字节) |
node_memory_VmallocUsed_bytes | 节点已用vmalloc内存大小(字节) |
node_memory_Writeback_bytes | 节点写回内存大小(字节) |
node_memory_WritebackTmp_bytes | 节点临时写回内存大小(字节) |
node_netstat_Icmp_InErrors | ICMP接收错误数 |
node_netstat_Icmp_InMsgs | ICMP接收消息数 |
node_netstat_Icmp_OutMsgs | ICMP发送消息数 |
node_netstat_Icmp6_InErrors | ICMPv6接收错误数 |
node_netstat_Icmp6_InMsgs | ICMPv6接收消息数 |
node_netstat_Icmp6_OutMsgs | ICMPv6发送消息数 |
node_netstat_Ip_Forwarding | IP转发状态 |
node_netstat_Ip6_InOctets | IPv6接收字节数 |
node_netstat_Ip6_OutOctets | IPv6发送字节数 |
node_netstat_IpExt_InOctets | IP扩展统计接收字节数 |
node_netstat_IpExt_OutOctets | IP扩展统计发送字节数 |
node_netstat_Tcp_ActiveOpens | TCP主动打开连接数 |
node_netstat_Tcp_CurrEstab | 当前建立的TCP连接数 |
node_netstat_Tcp_InErrs | TCP接收错误数 |
node_netstat_Tcp_InSegs | TCP接收数据段数 |
node_netstat_Tcp_OutRsts | TCP发送复位数 |
node_netstat_Tcp_OutSegs | TCP发送数据段数 |
node_netstat_Tcp_PassiveOpens | TCP被动打开连接数 |
node_netstat_Tcp_RetransSegs | TCP重传数据段数 |
node_netstat_TcpExt_ListenDrops | 监听队列丢弃的TCP连接数 |
node_netstat_TcpExt_ListenOverflows | 监听队列溢出次数 |
node_netstat_TcpExt_SyncookiesFailed | SYN_COOKIE验证失败次数 |
node_netstat_TcpExt_SyncookiesRecv | 接收到的SYN_COOKIE数 |
node_netstat_TcpExt_SyncookiesSent | 发送的SYN_COOKIE数 |
node_netstat_TcpExt_TCPOFOQueue | TCP发送队列中的OFO数 |
node_netstat_TcpExt_TCPSynRetrans | TCP SYN重传次数 |
node_netstat_TcpExt_TCPTimeouts | TCP超时次数 |
node_netstat_Udp_InDatagrams | UDP接收数据报数 |
node_netstat_Udp_InErrors | UDP接收错误数 |
node_netstat_Udp_NoPorts | UDP目的端口不可达数 |
node_netstat_Udp_OutDatagrams | UDP发送数据报数 |
node_netstat_Udp_RcvbufErrors | UDP接收缓冲区错误数 |
node_netstat_Udp_SndbufErrors | UDP发送缓冲区错误数 |
node_netstat_Udp6_InDatagrams | IPv6 UDP接收数据报数 |
node_netstat_Udp6_InErrors | IPv6 UDP接收错误数 |
node_netstat_Udp6_NoPorts | IPv6 UDP目的端口不可达数 |
node_netstat_Udp6_OutDatagrams | IPv6 UDP发送数据报数 |
node_netstat_Udp6_RcvbufErrors | IPv6 UDP接收缓冲区错误数 |
node_netstat_Udp6_SndbufErrors | IPv6 UDP发送缓冲区错误数 |
node_netstat_UdpLite_InErrors | UDP Lite接收错误数 |
node_netstat_UdpLite6_InErrors | IPv6 UDP Lite接收错误数 |
node_network_address_assign_type | 网络地址分配类型 |
node_network_carrier | 网络运营商信息 |
node_network_carrier_changes_total | 网络运营商变更总数 |
node_network_carrier_down_changes_total | 网络运营商降级变更总数 |
node_network_carrier_up_changes_total | 网络运营商升级变更总数 |
node_network_device_id | 网络设备ID |
node_network_dormant | 网络休眠状态 |
node_network_flags | 网络标志 |
node_network_iface_id | 网络接口ID |
node_network_iface_link | 网络接口链接状态 |
node_network_iface_link_mode | 网络接口链接模式 |
node_network_info | 网络接口信息 |
node_network_mtu_bytes | 网络最大传输单元字节数 |
node_network_name_assign_type | 网络名称分配类型 |
node_network_net_dev_group | 网络设备归属的网络设备组 |
node_network_protocol_type | 网络协议类型 |
node_network_receive_bytes_total | 累计接收字节总数 |
node_network_receive_compressed_total | 接收压缩包总数 |
node_network_receive_drop_total | 接收丢包总数 |
node_network_receive_errs_total | 接收错误总数 |
node_network_receive_fifo_total | 接收FIFO错误总数 |
node_network_receive_frame_total | 接收帧对齐错误总数 |
node_network_receive_multicast_total | 接收多播包总数 |
node_network_receive_nohandler_total | 无处理程序接收总数 |
node_network_receive_packets_total | 接收数据包总数 |
node_network_speed_bytes | 网络速度字节数 |
node_network_transmit_bytes_total | 累计发送字节总数 |
node_network_transmit_carrier_total | 发送时carrier丢失总数 |
node_network_transmit_colls_total | 发送冲突总数 |
node_network_transmit_compressed_total | 发送压缩包总数 |
node_network_transmit_drop_total | 发送丢包总数 |
node_network_transmit_errs_total | 发送错误总数 |
node_network_transmit_fifo_total | 发送FIFO错误总数 |
node_network_transmit_packets_total | 发送数据包总数 |
node_network_transmit_queue_length | 发送队列长度 |
node_network_up | 网络接口是否启用 |
node_nf_conntrack_entries | 链接状态跟踪表条目数量 |
node_nf_conntrack_entries_limit | 链接状态跟踪表条目限制 |
node_nf_conntrack_stat_drop | 链接状态跟踪表丢弃技术 |
node_nf_conntrack_stat_early_drop | 早期链接跟踪丢弃计数 |
node_nf_conntrack_stat_found | 链接跟踪成功查找计数 |
node_nf_conntrack_stat_ignore | 链接跟踪忽略计数 |
node_nf_conntrack_stat_insert | 链接跟踪插入计数 |
node_nf_conntrack_stat_insert_failed | 链接跟踪插入失败计数 |
node_nf_conntrack_stat_invalid | 链接跟踪无效计数 |
node_nf_conntrack_stat_search_restart | 链接跟踪搜索重启计数 |
node_nfs_connections_total | NFS连接总数 |
node_nfs_packets_total | NFS数据包总数 |
node_nfs_requests_total | NFS请求总数 |
node_nfs_rpc_authentication_refreshes_total | NFS RPC身份验证刷新总数 |
node_nfs_rpc_retransmissions_total | NFS RPC重传总数 |
node_nfs_rpcs_total | NFS RPC总数 |
node_nfsd_connections_total | NFS服务器连接总数 |
node_nfsd_disk_bytes_read_total | NFS服务器磁盘读取字节总数 |
node_nfsd_disk_bytes_written_total | NFS服务器磁盘写入字节总数 |
node_nfsd_file_handles_stale_total | NFS服务器文件句柄陈旧总数 |
node_nfsd_packets_total | NFS服务器数据包总数 |
node_nfsd_read_ahead_cache_not_found_total | NFS服务器预读缓存未找到总数 |
node_nfsd_read_ahead_cache_size_blocks | NFS服务器预读缓存大小(块) |
node_nfsd_reply_cache_hits_total | NFS服务器回复缓存命中总数 |
node_nfsd_reply_cache_misses_total | NFS服务器回复缓存未命中总数 |
node_nfsd_reply_cache_nocache_total | NFS服务器回复缓存无缓存总数 |
node_nfsd_requests_total | NFS服务器请求总数 |
node_nfsd_rpc_errors_total | NFS服务器RPC错误总数 |
node_nfsd_server_rpcs_total | NFS服务器处理的RPC总数 |
node_nfsd_server_threads | NFS服务器线程数 |
node_nvme_info | NVMe信息 |
node_os_info | 操作系统信息 |
node_os_version | 操作系统版本 |
node_pressure_cpu_waiting_seconds_total | CPU压力等待秒总数 |
node_pressure_io_stalled_seconds_total | IO压力停滞秒总数 |
node_pressure_io_waiting_seconds_total | IO压力等待秒总数 |
node_pressure_memory_stalled_seconds_total | 内存压力停滞秒总数 |
node_pressure_memory_waiting_seconds_total | 内存压力等待秒总数 |
node_processes_max_processes | 最大进程数 |
node_processes_max_threads | 最大线程数 |
node_processes_pids | 进程ID数 |
node_processes_state | 进程状态分布 |
node_processes_threads | 线程数 |
node_procs_blocked | 阻塞的进程数 |
node_procs_running | 运行中的进程数 |
node_schedstat_running_seconds_total | 调度统计-运行秒总数 |
node_schedstat_timeslices_total | 调度统计-时间片总数 |
node_schedstat_waiting_seconds_total | 调度统计-等待秒总数 |
node_scrape_collector_duration_seconds | 抓取采集器持续时间(秒) |
node_scrape_collector_success | 抓取采集器成功次数 |
node_selinux_enabled | SELinux是否启用 |
node_sockstat_FRAG_inuse | FRAG套接字使用中 |
node_sockstat_FRAG_memory | FRAG套接字占用内存 |
node_sockstat_FRAG6_inuse | FRAG6套接字使用中 |
node_sockstat_FRAG6_memory | FRAG6套接字占用内存 |
node_sockstat_RAW_inuse | RAW套接字使用中 |
node_sockstat_RAW6_inuse | RAW6套接字使用中 |
node_sockstat_sockets_used | 使用的套接字总数 |
node_sockstat_TCP_alloc | TCP套接字分配数 |
node_sockstat_TCP_inuse | TCP套接字使用中 |
node_sockstat_TCP_mem | TCP套接字内存使用量 |
node_sockstat_TCP_mem_bytes | TCP套接字内存使用字节数 |
node_sockstat_TCP_orphan | TCP孤儿套接字数 |
node_sockstat_TCP_tw | TCP TIME_WAIT套接字数 |
node_sockstat_TCP6_inuse | TCP6套接字使用中 |
node_sockstat_UDP_inuse | UDP套接字使用中 |
node_sockstat_UDP_mem | UDP套接字内存使用 |
node_sockstat_UDP_mem_bytes | UDP套接字内存使用字节数 |
node_sockstat_UDP6_inuse | UDP6套接字使用中 |
node_sockstat_UDPLITE_inuse | UDPLITE套接字使用中 |
node_sockstat_UDPLITE6_inuse | UDPLITE6套接字使用中 |
node_softnet_backlog_len | 软中断队列长度 |
node_softnet_cpu_collision_total | 软中断CPU碰撞总数 |
node_softnet_dropped_total | 软中断丢弃总数 |
node_softnet_flow_limit_count_total | 软中断流限制计数总数 |
node_softnet_processed_total | 软中断处理总数 |
node_softnet_received_rps_total | 软中断每秒接收速率总计 |
node_softnet_times_squeezed_total | 软中断挤压次数总计 |
node_textfile_scrape_error | 文本文件抓取错误 |
node_thermal_zone_temp | 热区温度 |
node_time_clocksource_available_info | 时钟源可用信息 |
node_time_clocksource_current_info | 当前时钟源信息 |
node_time_seconds | 自系统启动的秒数 |
node_time_zone_offset_seconds | 时区偏移秒数 |
node_timex_estimated_error_seconds | 估计的时间误差(秒) |
node_timex_frequency_adjustment_ratio | 时钟频率调整比率 |
node_timex_loop_time_constant | 时间调整回环常数 |
node_timex_maxerror_seconds | 最大误差(秒) |
node_timex_offset_seconds | 时间偏移(秒) |
node_timex_pps_calibration_total | PPS校准总数 |
node_timex_pps_error_total | PPS错误总数 |
node_timex_pps_frequency_hertz | PPS频率(赫兹) |
node_timex_pps_jitter_seconds | PPS抖动(秒) |
node_timex_pps_jitter_total | PPS抖动累计 |
node_timex_pps_shift_seconds | PPS偏移(秒) |
node_timex_pps_stability_exceeded_total | PPS稳定性超限次数 |
node_timex_pps_stability_hertz | PPS稳定性频率(赫兹) |
node_timex_status | 时钟时间调整状态 |
node_timex_sync_status | 时钟同步状态 |
node_timex_tai_offset_seconds | TAI偏移(秒) |
node_timex_tick_seconds | 时钟滴答间隔(秒) |
node_udp_queues | UDP队列统计 |
node_uname_info | 系统信息(uname) |
node_vmstat_oom_kill | VM统计-OOM杀死次数 |
node_vmstat_pgfault | VM统计-页故障次数 |
node_vmstat_pgmajfault | VM统计-重大页故障次数 |
node_vmstat_pgpgin | VM统计-页入次数 |
node_vmstat_pgpgout | VM统计-页出次数 |
node_vmstat_pswpin | VM统计-交换页入次数 |
node_vmstat_pswpout | VM统计-交换页出次数 |
node_xfs_allocation_btree_compares_total | XFS分配B树比较总数 |
node_xfs_allocation_btree_lookups_total | XFS分配B树查找总数 |
node_xfs_allocation_btree_records_deleted_total | XFS分配B树记录删除总数 |
node_xfs_allocation_btree_records_inserted_total | XFS分配B树记录插入总数 |
node_xfs_block_map_btree_compares_total | XFS块映射B树比较总数 |
node_xfs_block_map_btree_lookups_total | XFS块映射B树查找总数 |
node_xfs_block_map_btree_records_deleted_total | XFS块映射B树记录删除总数 |
node_xfs_block_map_btree_records_inserted_total | XFS块映射B树记录插入总数 |
node_xfs_block_mapping_extent_list_compares_total | XFS块映射范围列表比较总数 |
node_xfs_block_mapping_extent_list_deletions_total | XFS块映射范围列表删除总数 |
node_xfs_block_mapping_extent_list_insertions_total | XFS块映射范围列表插入总数 |
node_xfs_block_mapping_extent_list_lookups_total | XFS块映射范围列表查找总数 |
node_xfs_block_mapping_reads_total | XFS块映射读取总数 |
node_xfs_block_mapping_unmaps_total | XFS块映射解除映射总数 |
node_xfs_block_mapping_writes_total | XFS块映射写入总数 |
node_xfs_directory_operation_create_total | XFS目录操作创建总数 |
node_xfs_directory_operation_getdents_total | XFS目录操作获取目录项总数 |
node_xfs_directory_operation_lookup_total | XFS目录操作查找总数 |
node_xfs_directory_operation_remove_total | XFS目录操作移除总数 |
node_xfs_extent_allocation_blocks_allocated_total | XFS分配的块总数 |
node_xfs_extent_allocation_blocks_freed_total | XFS释放的块总数 |
node_xfs_extent_allocation_extents_allocated_total | XFS分配的扩展总数 |
node_xfs_extent_allocation_extents_freed_total | XFS释放的扩展总数 |
node_xfs_inode_operation_attempts_total | XFS索引节点操作尝试总数 |
node_xfs_inode_operation_attribute_changes_total | XFS索引节点操作属性变更总数 |
node_xfs_inode_operation_duplicates_total | XFS索引节点操作重复总数 |
node_xfs_inode_operation_found_total | XFS索引节点操作命中总数 |
node_xfs_inode_operation_missed_total | XFS索引节点操作未命中总数 |
node_xfs_inode_operation_reclaims_total | XFS索引节点操作回收总数 |
node_xfs_inode_operation_recycled_total | XFS索引节点操作重用总数 |
node_xfs_read_calls_total | XFS读取调用总数 |
node_xfs_vnode_active_total | XFS活动虚拟节点总数 |
node_xfs_vnode_allocate_total | XFS虚拟节点分配总数 |
node_xfs_vnode_get_total | XFS获取虚拟节点总数 |
node_xfs_vnode_hold_total | XFS保持虚拟节点总数 |
node_xfs_vnode_reclaim_total | XFS回收虚拟节点总数 |
node_xfs_vnode_release_total | XFS释放虚拟节点总数 |
node_xfs_vnode_remove_total | XFS移除虚拟节点总数 |
node_xfs_write_calls_total | XFS写入调用总数 |
process_cpu_seconds_total | 进程CPU使用秒数总计 |
process_max_fds | 进程最大文件描述符数 |
process_open_fds | 进程打开的文件描述符数 |
process_resident_memory_bytes | 进程常驻内存字节数 |
process_start_time_seconds | 进程启动时间(秒) |
process_virtual_memory_bytes | 进程虚拟内存字节数 |
process_virtual_memory_max_bytes | 进程虚拟内存最大字节数 |
promhttp_metric_handler_errors_total | Prometheus HTTP指标处理器错误总数 |
promhttp_metric_handler_requests_in_flight | Prometheus HTTP指标处理器当前请求数 |
promhttp_metric_handler_requests_total | Prometheus HTTP指标处理器请求总数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
kube-state-metrics(Job名称:_kube-state-metrics)
指标 | 描述 |
kube_configmap_info | Kubernetes ConfigMap信息 |
kube_cronjob_annotations | Kubernetes CronJob注解 |
kube_cronjob_created | Kubernetes CronJob创建时间 |
kube_cronjob_info | Kubernetes CronJob信息 |
kube_cronjob_labels | Kubernetes CronJob标签 |
kube_cronjob_metadata_resource_version | Kubernetes CronJob元数据资源版本 |
kube_cronjob_next_schedule_time | Kubernetes CronJob下次调度时间 |
kube_cronjob_spec_failed_job_history_limit | Kubernetes CronJob失败作业历史保留限制 |
kube_cronjob_spec_starting_deadline_seconds | Kubernetes CronJob启动期限秒数 |
kube_cronjob_spec_successful_job_history_limit | Kubernetes CronJob成功作业历史保留限制 |
kube_cronjob_spec_suspend | Kubernetes CronJob暂停状态 |
kube_cronjob_status_active | Kubernetes CronJob活跃作业数 |
kube_cronjob_status_last_schedule_time | Kubernetes CronJob上一次调度时间 |
kube_cronjob_status_last_successful_time | Kubernetes CronJob上一次成功执行时间 |
kube_daemonset_created | Kubernetes DaemonSet创建时间 |
kube_daemonset_status_current_number_scheduled | Kubernetes DaemonSet当前计划的节点数量 |
kube_daemonset_status_desired_number_scheduled | Kubernetes DaemonSet期望计划的节点数量 |
kube_daemonset_status_number_available | Kubernetes DaemonSet可用节点数量 |
kube_daemonset_status_number_misscheduled | Kubernetes DaemonSet错过的调度节点数量 |
kube_daemonset_status_number_ready | Kubernetes DaemonSet就绪节点数量 |
kube_daemonset_status_number_unavailable | Kubernetes DaemonSet不可用节点数量 |
kube_daemonset_status_updated_number_scheduled | Kubernetes DaemonSet已更新的计划节点数量 |
kube_daemonset_updated_number_scheduled | Kubernetes DaemonSet已更新的计划节点数量 |
kube_deployment_created | Kubernetes Deployment创建时间 |
kube_deployment_labels | Kubernetes Deployment标签 |
kube_deployment_metadata_generation | Kubernetes Deployment元数据生成代数 |
kube_deployment_spec_replicas | Kubernetes Deployment规格副本数 |
kube_deployment_spec_strategy_rollingupdate_max_unavailable | Kubernetes Deployment滚动更新最大不可用数 |
kube_deployment_status_observed_generation | Kubernetes Deployment观察到的生成代数 |
kube_deployment_status_replicas | Kubernetes Deployment副本总数 |
kube_deployment_status_replicas_available | Kubernetes Deployment可用副本数 |
kube_deployment_status_replicas_ready | Kubernetes Deployment就绪副本数 |
kube_deployment_status_replicas_unavailable | Kubernetes Deployment不可用副本数 |
kube_deployment_status_replicas_updated | Kubernetes Deployment已更新副本数 |
kube_horizontalpodautoscaler_info | Kubernetes HorizontalPodAutoscaler信息 |
kube_horizontalpodautoscaler_labels | Kubernetes HorizontalPodAutoscaler标签 |
kube_horizontalpodautoscaler_metadata_generation | Kubernetes HorizontalPodAutoscaler元数据生成代数 |
kube_horizontalpodautoscaler_spec_max_replicas | Kubernetes HorizontalPodAutoscaler规格最大副本数 |
kube_horizontalpodautoscaler_spec_min_replicas | Kubernetes HorizontalPodAutoscaler规格最小副本数 |
kube_horizontalpodautoscaler_spec_target_metric | Kubernetes HorizontalPodAutoscaler目标指标 |
kube_horizontalpodautoscaler_status_condition | Kubernetes HorizontalPodAutoscaler状态条件 |
kube_horizontalpodautoscaler_status_current_replicas | Kubernetes HorizontalPodAutoscaler当前副本数 |
kube_horizontalpodautoscaler_status_desired_replicas | Kubernetes HorizontalPodAutoscaler期望副本数 |
kube_hpa_labels | kube_hpa标签 |
kube_hpa_metadata_generation | Kubernetes HorizontalPodAutoscaler元数据生成代数 |
kube_hpa_spec_max_replicas | Kubernetes HorizontalPodAutoscaler最大副本数规格 |
kube_hpa_spec_min_replicas | Kubernetes HorizontalPodAutoscaler最小副本数规格 |
kube_hpa_spec_target_metric | Kubernetes HorizontalPodAutoscaler目标指标 |
kube_hpa_status_condition | Kubernetes HorizontalPodAutoscaler状态条件 |
kube_hpa_status_current_replicas | Kubernetes HorizontalPodAutoscaler当前副本数状态 |
kube_hpa_status_desired_replicas | Kubernetes HorizontalPodAutoscaler期望副本数状态 |
kube_ingress_info | Ingress信息 |
kube_job_created | job创建时间 |
kube_job_failed | job失败总数 |
kube_job_info | job信息 |
kube_job_spec_completions | job完成次数规格 |
kube_job_status_active | job活跃状态数 |
kube_job_status_failed | job失败状态数 |
kube_job_status_succeeded | job成功状态数 |
kube_namespace_created | 命名空间创建时间 |
kube_namespace_labels | 命名空间标签 |
kube_namespace_status_phase | 命名空间状态阶段 |
kube_node_info | 节点信息 |
kube_node_labels | 节点标签 |
kube_node_spec_taint | 节点污点配置 |
kube_node_spec_unschedulable | 节点是否可调度标志 |
kube_node_status_allocatable | 节点可分配资源量 |
kube_node_status_allocatable_cpu_cores | 节点可分配CPU核心数 |
kube_node_status_allocatable_memory_bytes | 节点可分配内存字节数 |
kube_node_status_allocatable_pods | 节点可分配Pod数量 |
kube_node_status_capacity | 节点容量 |
kube_node_status_capacity_cpu_cores | 节点容量CPU核心数 |
kube_node_status_capacity_memory_bytes | 节点容量内存字节数 |
kube_node_status_capacity_pods | 节点容量Pod数量 |
kube_node_status_condition | 节点状态条件 |
kube_persistentvolume_status_phase | 持久卷状态阶段 |
kube_persistentvolumeclaim_info | 持久卷声明信息 |
kube_persistentvolumeclaim_resource_requests_storage_bytes | 持久卷声明存储资源请求量 |
kube_persistentvolumeclaim_status_phase | 持久卷声明状态阶段 |
kube_pod_completion_time | Pod完成时间 |
kube_pod_container_info | Pod容器信息 |
kube_pod_container_resource_limits | Pod容器资源限制 |
kube_pod_container_resource_limits_cpu_cores | Pod容器资源限制CPU核心数 |
kube_pod_container_resource_limits_memory_bytes | Pod容器资源限制内存字节数 |
kube_pod_container_resource_requests | Pod容器资源请求 |
kube_pod_container_resource_requests_cpu_cores | Pod容器资源请求CPU核心数 |
kube_pod_container_resource_requests_memory_bytes | Pod容器资源请求内存字节数 |
kube_pod_container_status_last_terminated_reason | Pod容器最后终止原因 |
kube_pod_container_status_ready | Pod容器就绪状态 |
kube_pod_container_status_restarts_total | Pod容器重启总数 |
kube_pod_container_status_running | Pod容器运行状态 |
kube_pod_container_status_terminated | Pod容器终止状态 |
kube_pod_container_status_terminated_reason | Pod容器终止原因 |
kube_pod_container_status_waiting | Pod容器等待状态 |
kube_pod_container_status_waiting_reason | Pod容器等待原因 |
kube_pod_created | Pod创建时间 |
kube_pod_deletion_timestamp | Pod删除时间戳 |
kube_pod_info | Pod信息 |
kube_pod_labels | Pod标签 |
kube_pod_owner | Pod所属对象 |
kube_pod_start_time | Pod启动时间 |
kube_pod_status_container_ready_time | Pod状态容器就绪时间 |
kube_pod_status_initialized_time | Pod状态初始化完成时间 |
kube_pod_status_phase | Pod状态阶段 |
kube_pod_status_ready | Pod就绪状态 |
kube_pod_status_ready_time | Pod就绪时间 |
kube_pod_status_reason | Pod状态原因 |
kube_pod_status_scheduled_time | Pod调度时间 |
kube_pod_status_unschedulable | Pod未调度标志 |
kube_replicaset_owner | 副本集所属对象 |
kube_replicaset_status_ready_replicas | 副本集就绪副本数 |
kube_resource_relationship | 资源关系 |
kube_resourcequota | 资源配额 |
kube_resourcequota_created | 资源配额创建时间 |
kube_secret_info | secret信息 |
kube_service_info | 服务信息 |
kube_service_spec_type | 服务类型规格 |
kube_service_status_load_balancer_ingress | 服务状态负载均衡入口信息 |
kube_statefulset_created | 有状态副本集创建时间 |
kube_statefulset_metadata_generation | 有状态副本集元数据生成代数 |
kube_statefulset_replicas | 有状态副本集副本数 |
kube_statefulset_status_replicas | 有状态副本集状态副本数 |
kube_statefulset_status_replicas_available | 有状态副本集状态可用副本数 |
kube_statefulset_status_replicas_ready | 有状态副本集状态就绪副本数 |
kube_statefulset_status_replicas_updated | 有状态副本集状态更新副本数 |
process_cpu_seconds_total | 进程CPU使用秒总数 |
process_resident_memory_bytes | 进程常驻内存字节数 |
rest_client_requests_total | REST客户端请求总数 |
up | 指标采集的连接性 |
workqueue_adds_total | 工作队列添加总数 |
workqueue_depth | 工作队列深度 |
workqueue_queue_duration_seconds_bucket | 工作队列排队时长秒数分布 |
kube-events(Job名称:_arms/kube-event)
指标 | 描述 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
eventer_events_error_total | 事件处理错误总数 |
eventer_events_normal_total | 事件正常总数 |
eventer_events_warning_total | 事件警告总数 |
eventer_exporter_duration_milliseconds_count | 事件导出耗时毫秒数的样本数 |
eventer_exporter_duration_milliseconds_sum | 事件导出耗时毫秒数总和 |
eventer_manager_last_time_seconds | 事件管理器最近操作时间秒数 |
eventer_scraper_duration_milliseconds_count | 事件抓取持续时间(毫秒)计数 |
eventer_scraper_duration_milliseconds_sum | 事件抓取持续时间(毫秒)总和 |
eventer_scraper_events_total_number | 事件抓取事件总数 |
eventer_scraper_last_time_seconds | 事件抓取最后执行时间(秒) |
go_gc_duration_seconds | Go GC耗时(秒) |
go_gc_duration_seconds_count | Go GC耗时(秒) |
go_gc_duration_seconds_sum | Go GC耗时总和 |
go_goroutines | Go运行协程数 |
go_info | Go信息 |
go_memstats_alloc_bytes | Go内存统计 - 分配字节数 |
go_memstats_alloc_bytes_total | Go内存统计 - 累计分配字节数 |
go_memstats_buck_hash_sys_bytes | Go内存统计 - 哈希表系统字节数 |
go_memstats_frees_total | Go内存统计 - 总释放次数 |
go_memstats_gc_cpu_fraction | Go内存统计 - GC CPU占比 |
go_memstats_gc_sys_bytes | Go内存统计 - GC系统字节数 |
go_memstats_heap_alloc_bytes | Go内存统计 - 堆分配字节数 |
go_memstats_heap_idle_bytes | Go内存统计 - 堆空闲字节数 |
go_memstats_heap_inuse_bytes | Go内存统计 - 堆使用中字节数 |
go_memstats_heap_objects | Go内存统计 - 堆对象数量 |
go_memstats_heap_released_bytes | Go内存统计 - 堆已释放字节数 |
go_memstats_heap_sys_bytes | Go内存统计 - 堆系统字节数 |
go_memstats_last_gc_time_seconds | Go内存统计 - 上次GC时间(秒) |
go_memstats_lookups_total | Go内存统计 - 查找总数 |
go_memstats_mallocs_total | Go内存统计 - 总分配次数 |
go_memstats_mcache_inuse_bytes | Go内存统计 - mcache使用中字节数 |
go_memstats_mcache_sys_bytes | Go内存统计 - mcache系统字节数 |
go_memstats_mspan_inuse_bytes | Go内存统计 - mspan使用中字节数 |
go_memstats_mspan_sys_bytes | Go内存统计 - mspan系统字节数 |
go_memstats_next_gc_bytes | Go内存统计 - 下次GC释放字节数 |
go_memstats_other_sys_bytes | Go内存统计 - 其他系统字节数 |
go_memstats_stack_inuse_bytes | Go内存统计 - 栈使用中字节数 |
go_memstats_stack_sys_bytes | Go内存统计 - 栈系统字节数 |
go_memstats_sys_bytes | Go内存统计 - 系统字节总计 |
go_threads | Go线程数 |
process_cpu_seconds_total | 进程CPU使用秒数总计 |
process_max_fds | 进程最大文件描述符数量 |
process_open_fds | 进程打开文件描述符数量 |
process_resident_memory_bytes | 进程常驻内存字节数 |
process_start_time_seconds | 进程启动时间(秒) |
process_virtual_memory_bytes | 进程虚拟内存字节数 |
process_virtual_memory_max_bytes | 进程虚拟内存最大字节数 |
promhttp_metric_handler_requests_in_flight | Prometheus HTTP指标处理器当前请求数 |
promhttp_metric_handler_requests_total | Prometheus HTTP指标处理器请求总数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
CoreDNS(Job名称:arms-ack-coredns)
指标 | 描述 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
coredns_autopath_success_count_total | CoreDNS自动路径成功次数总计 |
coredns_autopath_success_total | CoreDNS自动路径成功次数总计 |
coredns_build_info | CoreDNS构建信息 |
coredns_cache_drops_total | CoreDNS缓存丢弃次数总计 |
coredns_cache_entries | CoreDNS缓存条目数 |
coredns_cache_evictions_total | CoreDNS缓存逐出次数总计 |
coredns_cache_hits_total | CoreDNS缓存命中次数总计 |
coredns_cache_misses_total | CoreDNS缓存未命中次数总计 |
coredns_cache_requests_total | CoreDNS缓存请求总数 |
coredns_cache_size | CoreDNS缓存大小 |
coredns_dns_do_requests_total | CoreDNS DNS DO请求总数 |
coredns_dns_request_count_total | CoreDNS DNS请求计数总计 |
coredns_dns_request_duration_seconds_bucket | CoreDNS DNS请求持续时间(秒)分位数 |
coredns_dns_request_duration_seconds_count | CoreDNS DNS请求持续时间(秒)计数 |
coredns_dns_request_duration_seconds_sum | CoreDNS DNS请求持续时间(秒)总和 |
coredns_dns_request_size_bytes_bucket | CoreDNS DNS请求大小(字节)分位数 |
coredns_dns_request_size_bytes_count | CoreDNS DNS请求大小(字节)计数 |
coredns_dns_request_size_bytes_sum | CoreDNS DNS请求大小(字节)总和 |
coredns_dns_request_type_count_total | CoreDNS DNS请求类型计数总计 |
coredns_dns_requests_total | CoreDNS DNS请求总数 |
coredns_dns_response_rcode_count_total | CoreDNS DNS响应代码计数总计 |
coredns_dns_response_size_bytes_bucket | CoreDNS DNS响应大小(字节)分位数 |
coredns_dns_response_size_bytes_count | CoreDNS DNS响应大小(字节)计数 |
coredns_dns_response_size_bytes_sum | CoreDNS DNS响应大小(字节)总和 |
coredns_dns_responses_total | CoreDNS DNS响应总数 |
coredns_forward_conn_cache_hits_total | CoreDNS转发连接缓存命中次数总计 |
coredns_forward_conn_cache_misses_total | CoreDNS转发连接缓存未命中次数总计 |
coredns_forward_healthcheck_broken_total | CoreDNS转发健康检查失败总数 |
coredns_forward_healthcheck_failure_count_total | CoreDNS转发健康检查失败计数总计 |
coredns_forward_healthcheck_failures_total | CoreDNS转发健康检查故障总数 |
coredns_forward_max_concurrent_rejects_total | CoreDNS转发最大并发拒绝次数总计 |
coredns_forward_request_count_total | CoreDNS转发请求计数总计 |
coredns_forward_request_duration_seconds_bucket | CoreDNS转发请求持续时间(秒)分位数 |
coredns_forward_request_duration_seconds_count | CoreDNS转发请求持续时间(秒)计数 |
coredns_forward_request_duration_seconds_sum | CoreDNS转发请求持续时间(秒)总和 |
coredns_forward_requests_total | CoreDNS转发请求总数 |
coredns_forward_response_rcode_count_total | CoreDNS转发响应代码计数总计 |
coredns_forward_responses_total | CoreDNS转发响应总数 |
coredns_forward_sockets_open | CoreDNS转发打开的套接字数 |
coredns_health_request_duration_seconds_bucket | CoreDNS健康检查请求持续时间(秒)分位数 |
coredns_health_request_duration_seconds_count | CoreDNS健康检查请求持续时间(秒)计数 |
coredns_health_request_duration_seconds_sum | CoreDNS健康检查请求持续时间(秒)总和 |
coredns_health_request_failures_total | CoreDNS健康检查请求失败总数 |
coredns_hosts_entries | CoreDNS主机条目数 |
coredns_hosts_reload_timestamp_seconds | CoreDNS主机重新加载时间戳(秒) |
coredns_kubernetes_dns_programming_duration_seconds_bucket | CoreDNS Kubernetes DNS编程持续时间(秒)分位数 |
coredns_kubernetes_dns_programming_duration_seconds_count | CoreDNS Kubernetes DNS编程持续时间(秒)计数 |
coredns_kubernetes_dns_programming_duration_seconds_sum | CoreDNS Kubernetes DNS编程耗时总和 |
coredns_local_localhost_requests_total | CoreDNS本地localhost请求总数 |
coredns_panic_count_total | CoreDNS panic总数 |
coredns_panics_total | CoreDNS panic计数总计 |
coredns_plugin_enabled | CoreDNS插件启用状态 |
coredns_reload_failed_total | CoreDNS重载失败次数总计 |
coredns_reload_version_info | CoreDNS重载版本信息 |
coredns_template_matches_total | CoreDNS模板匹配总数 |
go_gc_duration_seconds | Go GC耗时(秒) |
go_gc_duration_seconds_count | Go GC耗时(秒) |
go_gc_duration_seconds_sum | Go GC耗时总和 |
go_goroutines | Go运行协程数 |
go_info | Go信息 |
go_memstats_alloc_bytes | Go内存统计 - 分配字节数 |
go_memstats_alloc_bytes_total | Go内存统计 - 累计分配字节数 |
go_memstats_buck_hash_sys_bytes | Go内存统计 - 哈希表系统字节数 |
go_memstats_frees_total | Go内存统计 - 总释放次数 |
go_memstats_gc_cpu_fraction | Go内存统计 - GC CPU占比 |
go_memstats_gc_sys_bytes | Go内存统计 - GC系统字节数 |
go_memstats_heap_alloc_bytes | Go内存统计 - 堆分配字节数 |
go_memstats_heap_idle_bytes | Go内存统计 - 堆空闲字节数 |
go_memstats_heap_inuse_bytes | Go内存统计 - 堆使用中字节数 |
go_memstats_heap_objects | Go内存统计 - 堆对象数量 |
go_memstats_heap_released_bytes | Go内存统计 - 堆已释放字节数 |
go_memstats_heap_sys_bytes | Go内存统计 - 堆系统字节数 |
go_memstats_last_gc_time_seconds | Go内存统计 - 上次GC时间(秒) |
go_memstats_lookups_total | Go内存统计 - 查找总数 |
go_memstats_mallocs_total | Go内存统计 - 总分配次数 |
go_memstats_mcache_inuse_bytes | Go内存统计 - mcache使用中字节数 |
go_memstats_mcache_sys_bytes | Go内存统计 - mcache系统字节数 |
go_memstats_mspan_inuse_bytes | Go内存统计 - mspan使用中字节数 |
go_memstats_mspan_sys_bytes | Go内存统计 - mspan系统字节数 |
go_memstats_next_gc_bytes | Go内存统计 - 下次GC释放字节数 |
go_memstats_other_sys_bytes | Go内存统计 - 其他系统字节数 |
go_memstats_stack_inuse_bytes | Go内存统计 - 栈使用中字节数 |
go_memstats_stack_sys_bytes | Go内存统计 - 栈系统字节数 |
go_memstats_sys_bytes | Go内存统计 - 系统字节总计 |
go_threads | Go线程数 |
process_cpu_seconds_total | 进程CPU使用秒数总计 |
process_max_fds | 进程最大文件描述符数量 |
process_open_fds | 进程打开的文件描述符数量 |
process_resident_memory_bytes | 进程常驻内存字节数 |
process_start_time_seconds | 进程启动时间(秒) |
process_virtual_memory_bytes | 进程虚拟内存字节数 |
process_virtual_memory_max_bytes | 进程虚拟内存最大字节数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
CSI(集群维度)(Job名称:k8s-csi-cluster-pv)
指标 | 描述 |
alibaba_cloud_storage_operator_build_info | 阿里云存储运维构建信息 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
cluster_pv_detail_num_total | 集群PV详细信息总数 |
cluster_pv_status_num_total | 集群PV状态总数 |
cluster_pvc_detail_num_total | 集群PVC详细信息总数 |
cluster_pvc_status_num_total | 集群PVC状态总数 |
cluster_scrape_collector_duration_seconds | 集群抓取收集器耗时(秒) |
cluster_scrape_collector_success | 集群抓取收集器成功次数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
CSI(节点维度)(Job名称:k8s-csi-node-pv)
指标 | 描述 |
alibaba_cloud_csi_driver_build_info | 阿里云CSI驱动构建信息 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
cluster_scrape_collector_duration_seconds | 集群抓取收集器耗时(秒) |
cluster_scrape_collector_success | 集群抓取收集器成功次数 |
container_fs_available_bytes | 容器文件系统可用字节数 |
container_fs_inodes_free | 容器文件系统可用inode数 |
container_fs_inodes_total | 容器文件系统inode总数 |
container_fs_inodes_used | 容器文件系统已用inode数 |
container_fs_limit_bytes | 容器文件系统限制字节数 |
container_fs_usage_bytes | 容器文件系统使用字节数 |
ephemeral_storage_pod_available_bytes | 临时存储Pod可用字节数 |
ephemeral_storage_pod_inodes_free | 临时存储Pod可用inode数 |
ephemeral_storage_pod_inodes_total | 临时存储Pod inode总数 |
ephemeral_storage_pod_inodes_used | 临时存储Pod已用inode数 |
ephemeral_storage_pod_limit_bytes | 临时存储Pod限制字节数 |
ephemeral_storage_pod_usage_bytes | 临时存储Pod使用字节数 |
node_volume_backend_posix_access_total_counter | 节点卷后端POSIX访问计数器总计 |
node_volume_backend_posix_getattr_total_counter | 节点卷后端POSIX getattr调用计数器总计 |
node_volume_backend_posix_getmode_total_counter | 节点卷后端POSIX获取模式计数器总计 |
node_volume_backend_posix_link_total_counter | 节点卷后端POSIX链接操作计数器总计 |
node_volume_backend_posix_lookup_total_counter | 节点卷后端POSIX查找操作计数器总计 |
node_volume_backend_posix_mknod_total_counter | 节点卷后端POSIX创建节点操作计数器总计 |
node_volume_backend_posix_readdir_total_counter | 节点卷后端POSIX读目录操作计数器总计 |
node_volume_backend_posix_readlink_total_counter | 节点卷后端POSIX读链接操作计数器总计 |
node_volume_backend_posix_remove_total_counter | 节点卷后端POSIX删除操作计数器总计 |
node_volume_backend_posix_rename_total_counter | 节点卷后端POSIX重命名操作计数器总计 |
node_volume_backend_posix_setattr_total_counter | 节点卷后端POSIX设置属性操作计数器总计 |
node_volume_backend_posix_statfs_total_counter | 节点卷后端POSIX统计文件系统操作计数器总计 |
node_volume_backend_read_bytes_total_counter | 节点卷后端读取字节总计计数器 |
node_volume_backend_read_completed_total_counter | 节点卷后端读请求完成总数 |
node_volume_backend_read_time_milliseconds_total_counter | 节点卷后端读取时间毫秒总数 |
node_volume_backend_write_bytes_total_counter | 节点卷后端写入字节总数 |
node_volume_backend_write_completed_total_counter | 节点卷后端写请求完成总数 |
node_volume_backend_write_time_milliseconds_total_counter | 节点卷后端写入时间毫秒总数 |
node_volume_capacity_bytes_available | 节点卷可用容量(字节) |
node_volume_capacity_bytes_available_counter | 节点卷可用容量(字节) |
node_volume_capacity_bytes_total | 节点卷总容量字节数 |
node_volume_capacity_bytes_total_counter | 节点卷总容量字节数计数器 |
node_volume_capacity_bytes_used | 节点卷已用容量字节数 |
node_volume_capacity_bytes_used_counter | 节点卷已用容量字节数计数器 |
node_volume_hot_spot_head_file_top | 节点卷热点头部文件排行 |
node_volume_hot_spot_read_file_top | 节点卷热点读取文件排行 |
node_volume_hot_spot_write_file_top | 节点卷热点写入文件排行 |
node_volume_inode_bytes_available_counter | 节点卷inode可用字节计数器 |
node_volume_inode_bytes_total_counter | 节点卷inode总字节计数器 |
node_volume_inode_bytes_used_counter | 节点卷inode已用字节计数器 |
node_volume_inodes_available | 节点卷可用inode数 |
node_volume_inodes_total | 节点卷总inode数 |
node_volume_inodes_used | 节点卷已用inode数 |
node_volume_io_now | 节点卷当前I/O数量 |
node_volume_io_time_seconds_total | 节点卷I/O时间总秒数 |
node_volume_oss_delete_object_total_counter | 节点卷OSS删除对象总数计数器 |
node_volume_oss_get_object_total_counter | 节点卷OSS获取对象总数计数器 |
node_volume_oss_head_object_total_counter | 节点卷OSS头部对象总数计数器 |
node_volume_oss_post_object_total_counter | 节点卷OSS POST对象总数计数器 |
node_volume_oss_put_object_total_counter | 节点卷OSS PUT对象总数计数器 |
node_volume_posix_access_total_counter | 节点卷POSIX访问总数计数器 |
node_volume_posix_chmod_total_counter | 节点卷POSIX更改模式总数计数器 |
node_volume_posix_chown_total_counter | 节点卷POSIX更改所有者总数计数器 |
node_volume_posix_create_total_counter | 节点卷POSIX创建总数计数器 |
node_volume_posix_flush_total_counter | 节点卷POSIX刷新总数计数器 |
node_volume_posix_fsync_total_counter | 节点卷POSIX同步总数计数器 |
node_volume_posix_mkdir_total_counter | 节点卷POSIX新建目录总数计数器 |
node_volume_posix_open_total_counter | 节点卷POSIX打开总数计数器 |
node_volume_posix_opendir_total_counter | 节点卷POSIX打开目录总数计数器 |
node_volume_posix_read_total_counter | 节点卷POSIX读取总数计数器 |
node_volume_posix_readdir_total_counter | 节点卷POSIX读取目录总数计数器 |
node_volume_posix_release_total_counter | 节点卷POSIX释放总数计数器 |
node_volume_posix_rename_total_counter | 节点卷POSIX重命名总数计数器 |
node_volume_posix_rmdir_total_counter | 节点卷POSIX删除目录总数计数器 |
node_volume_posix_truncate_total_counter | 节点卷POSIX截断总数计数器 |
node_volume_posix_write_total_counter | 节点卷POSIX写入总数计数器 |
node_volume_read_bytes_total | 节点卷读取字节总数 |
node_volume_read_bytes_total_counter | 节点卷读取字节总数计数器 |
node_volume_read_completed_total | 节点卷读请求完成总数 |
node_volume_read_completed_total_counter | 节点卷读请求完成总数计数器 |
node_volume_read_merged_total | 节点卷读取合并操作总数 |
node_volume_read_queue_time_milliseconds_total | 节点卷读取队列时间毫秒总数 |
node_volume_read_rtt_time_milliseconds_total | 节点卷读取往返时间毫秒总数 |
node_volume_read_sent_bytes_total | 节点卷读取发送字节总数 |
node_volume_read_time_milliseconds_total | 节点卷读取时间毫秒总数 |
node_volume_read_time_milliseconds_total_counter | 节点卷读取时间毫秒总数计数器 |
node_volume_read_timeouts_total | 节点卷读取超时总数 |
node_volume_read_transmissions_total | 节点卷读取传输总数 |
node_volume_vg_free_bytes | 节点卷VG空闲字节数 |
node_volume_vg_size_bytes | 节点卷VG总字节数 |
node_volume_write_bytes_total | 节点卷写入字节总数 |
node_volume_write_bytes_total_counter | 节点卷写入字节总数计数器 |
node_volume_write_completed_total | 节点卷写请求完成总数 |
node_volume_write_completed_total_counter | 节点卷写请求完成总数计数器 |
node_volume_write_merged_total | 节点卷写入合并操作总数 |
node_volume_write_queue_time_milliseconds_total | 节点卷写入队列时间毫秒总数 |
node_volume_write_recv_bytes_total | 节点卷写入接收字节总数 |
node_volume_write_rtt_time_milliseconds_total | 节点卷写入往返时间毫秒总数 |
node_volume_write_time_milliseconds_total | 节点卷写入时间毫秒总数 |
node_volume_write_time_milliseconds_total_counter | 节点卷写入时间毫秒总数计数器 |
node_volume_write_timeouts_total | 节点卷写入超时总数 |
node_volume_write_transmissions_total | 节点卷写入传输总数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
GPU-Exporter(Job名称:gpu-exporter)
指标 | 描述 |
DCGM_CUSTOM_ALLOCATE_MODE | 表示节点运行的模式,有如下几种: 0:代表值为None,表示当前节点没有GPU Pod在运行。 1:代表值为Exclusive,表示None当前节点的GPU Pod以独占GPU方式运行。 2:代表值为Share,表示当前节点GPU Pod以共享GPU方式运行。 |
DCGM_CUSTOM_CONTAINER_CP_ALLOCATED | 表示为容器分配的一张GPU卡上部分算力占该GPU卡总算力的比例。值的区间为[0,1]。 独占GPU或者共享GPU只申请显存时,该指标的值为0,表示不限制算力。 假设GPU卡有100算力,为一个容器分配30算力,那么为该容器分配的算力比例为30/100=0.3。 |
DCGM_CUSTOM_CONTAINER_MEM_ALLOCATED | 表示为容器分配显存。 |
DCGM_CUSTOM_DEV_FB_ALLOCATED | 表示GPU卡已分配显存占总显存的比例,值的区间为[0,1]。 |
DCGM_CUSTOM_DEV_FB_TOTAL | 表示GPU卡的总显存。 |
DCGM_CUSTOM_ILLEGAL_PROCESS_DECODE_UTIL | 非法进程解码利用率 |
DCGM_CUSTOM_ILLEGAL_PROCESS_ENCODE_UTIL | 非法进程编码利用率 |
DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_COPY_UTIL | 非法进程内存复制利用率 |
DCGM_CUSTOM_ILLEGAL_PROCESS_MEM_USED | 非法进程使用的内存 |
DCGM_CUSTOM_ILLEGAL_PROCESS_SM_UTIL | 非法进程流式多处理器(SM)利用率 |
DCGM_CUSTOM_PROCESS_DECODE_UTIL | 表示GPU线程的解码器利用率。 |
DCGM_CUSTOM_PROCESS_ENCODE_UTIL | 表示GPU线程的编码器利用率。 |
DCGM_CUSTOM_PROCESS_MEM_COPY_UTIL | 表示GPU线程的内存拷贝利用率。 |
DCGM_CUSTOM_PROCESS_MEM_USED | 表示GPU线程当前使用的显存。 |
DCGM_CUSTOM_PROCESS_SM_UTIL | 表示GPU线程的SM利用率。 |
DCGM_FI_DEV_APP_MEM_CLOCK | 表示内存应用时钟频率。 |
DCGM_FI_DEV_APP_SM_CLOCK | 表示SM应用时钟频率。 |
DCGM_FI_DEV_BAR1_FREE | 表示剩余的BAR1。 |
DCGM_FI_DEV_BAR1_TOTAL | 设备BAR1总大小(Base Address Register 1,用于映射GPU内存到系统地址空间) |
DCGM_FI_DEV_BAR1_USED | 表示已使用的BAR1。 |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | 表示由于电路板限制而导致的违规,该值为违规的时间。 |
DCGM_FI_DEV_CLOCK_THROTTLE_REASONS | 表示时钟慢下来的原因。 |
DCGM_FI_DEV_COUNT | 设备数量 |
DCGM_FI_DEV_DEC_UTIL | 表示解码器利用率。 |
DCGM_FI_DEV_ENC_UTIL | 表示编码器利用率。 |
DCGM_FI_DEV_FB_FREE | 表示帧缓存(Framebuffer Memory)剩余数。 |
DCGM_FI_DEV_FB_USED | 表示帧缓存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应。 |
DCGM_FI_DEV_GPU_TEMP | 表示GPU温度。 |
DCGM_FI_DEV_GPU_UTIL | 表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况。 |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | 表示低利用率限制导致的违规,该值为违规的时间。 |
DCGM_FI_DEV_MEM_CLOCK | 表示内存时钟频率。 |
DCGM_FI_DEV_MEM_COPY_UTIL | 表示内存带宽利用率。以英伟达GPU V100为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 |
DCGM_FI_DEV_MEMORY_TEMP | 表示内存温度。 |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | NVLINK总带宽 |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER | PCIe重播计数器(记录数据传输错误需重试的次数) |
DCGM_FI_DEV_POWER_USAGE | 表示功率。 |
DCGM_FI_DEV_POWER_VIOLATION | 表示因功率上限而导致的违规,该值为违规的时间。 |
DCGM_FI_DEV_PSTATE | 设备电源状态 |
DCGM_FI_DEV_RELIABILITY_VIOLATION | 表示电路板可靠性限制导致违规,该值为违规的时间。 |
DCGM_FI_DEV_RETIRED_DBE | 表示用双bit错误而停用的页面。 |
DCGM_FI_DEV_RETIRED_PENDING | 即将退役的页面数(GPU内存中因错误而被标记为不可用的页面) |
DCGM_FI_DEV_RETIRED_SBE | 表示由单bit错误而停用的页面。 |
DCGM_FI_DEV_SM_CLOCK | 表示SM时钟频率。 |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | 表示由于同步提升限制而导致的违规,该值为违规的时间。 |
DCGM_FI_DEV_THERMAL_VIOLATION | 表示由于热限制导致的违规,该值为违规的时间。 |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | 表示从驱动加载开始,已消耗的能量. |
DCGM_FI_DEV_VIDEO_CLOCK | 视频时钟频率 |
DCGM_FI_DEV_XID_ERRORS | 表示一段时间内,最后发生的XID错误号。 |
DCGM_FI_PROF_DRAM_ACTIVE | 表示内存带宽利用率(Memory BW Utilization)将数据发送到设备内存或从设备内存接收数据的周期分数。 该值表示时间间隔内的平均值,而不是瞬时值。 较高的值表示设备内存的利用率较高。 该值为1(100%)表示在整个时间间隔内的每个周期执行一条 DRAM 指令(实际上,峰值约为 0.8 (80%) 是可实现的最大值)。 假设该值为0.2(20%),表示20%的周期在时间间隔内读取或写入设备内存。 |
DCGM_FI_PROF_GR_ENGINE_ACTIVE | 表示在一个时间间隔内,Graphics或Compute引擎处于Active的时间占比。该值表示所有Graphics和Compute引擎的平均值。Graphics或Compute引擎处于Active是指Graphics或Compute Context绑定到线程,并且Graphics或Compute Context处于Busy状态。 |
DCGM_FI_PROF_NVLINK_RX_BYTES | 表示通过NVLink传输/接收的数据速率,不包括协议标头。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上,最大NVLink Gen2带宽为每个方向每个链路25 GB/s。 |
DCGM_FI_PROF_NVLINK_TX_BYTES | 通过NVLINK传输的总字节数(发送方向) |
DCGM_FI_PROF_PCIE_RX_BYTES | 表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。 |
DCGM_FI_PROF_PCIE_TX_BYTES | 表示通过PCIe总线传输/接收的数据速率,包括协议标头和数据有效负载。 该值表示一个时间间隔内的平均值,而不是瞬时值。 该速率在时间间隔内平均。例如,在1秒内传输1 GB数据,则无论以恒定速率还是突发传输数据,速率都是1 GB/s。理论上的最大PCIe Gen3带宽为每通道985 MB/s。 |
DCGM_FI_PROF_PIPE_FP16_ACTIVE | 表示FP16(半精度)管道处于Active的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表FP16 Cores有较高的利用率。 该值为 1 (100%) 表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP16指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的FP16 Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的FP16 Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的FP16 Core以100%利用率运行。 其他组合模式。 |
DCGM_FI_PROF_PIPE_FP32_ACTIVE | 表示乘加操作FMA(Fused Multiply-Add)管道处于Active的周期分数,乘加操作包括FP32(单精度)和整数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表FP32 Cores有较高的利用率。 该值为1(100%)表示在整个时间间隔内上每两个周期(Volta类型卡为例)执行一次FP32指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的FP32 Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的FP32 Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的FP32 Core以100%利用率运行。 其他组合模式。 |
DCGM_FI_PROF_PIPE_FP64_ACTIVE | 表示FP64(双精度)Pipe处于Active状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值代表FP64 Cores有较高的利用率。 该值为 1(100%)表示在整个时间间隔内上每四个周期(以Volta类型卡为例)执行一次FP64指令。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的FP64 Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的FP64 Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的FP64 Core以100%利用率运行。 其他组合模式。 |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE | 表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值表示Tensor Cores的利用率较高。 该值为1(100%)表示在整个时间间隔内每隔一个指令周期发出一个Tensor指令(两个周期完成一条指令)。 假设该值为0.2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。 |
DCGM_FI_PROF_SM_ACTIVE | 表示在一个时间间隔内,至少一个线程束在一个SM(Streaming Multiprocessor)上处于Active的时间占比。该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是 Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0.8是必要的。 假设一个GPU有N个SM: 一个核函数在整个时间间隔内使用N个线程块运行在所有的SM上,此时该值为1(100%)。 一个核数在一个时间间隔内运行N/5个线程块,此时该值为0.2。 一个核函数使用N个线程块,在一个时间间隔内,仅运行了1/5个周期的时间,此时该值为0.2。 |
DCGM_FI_PROF_SM_OCCUPANCY | 表示在一个时间间隔内,驻留在SM上的线程束与该SM最大可驻留线程束的比例。该值表示一个时间间隔内的所有SM的平均值。占用率越高不代表GPU使用率越高。只有在GPU内存带宽受限的工作负载(DCGM_FI_PROF_DRAM_ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。 |
nvidia_gpu_allocated_num_devices | 分配的gpu设备数量,Warining:将来将弃用 |
nvidia_gpu_memory_allocated_bytes | gpu设备已满内存,Warining:将来将弃用,由DCGM_CUSTOM_DEV_FB_allocated代替 |
nvidia_gpu_sharing_memory | gpu共享时分配的内存,Warining:将来将弃用,DCGM_CUSTOM_DEV_FB_allocated |
up | 指标采集的连接性 |
Cost-Exporter(Job名称:alibaba-cloud-cost-exporter)
指标 | 描述 |
deducted_by_cash_coupons | 当前实例对应一笔账单的账单优惠券抵扣 |
deducted_by_prepaid_card | 当前实例对应一笔账单的预付费卡抵扣 |
invoice_discount | 当前实例对应一笔账单的优惠金额 |
list_price | 当前实例对应一笔账单的单价 |
node_current_price | 当前节点实际价格 |
node_payAsYouGo_price | 当前节点以按量付费策略的节点价格 |
node_payByPeriod_price | 当前节点以包年包月付费策略的节点价格 |
node_spot_price | 当前节点以同规格抢占实例Spot策略的节点价格 |
outstanding_amount | 当前实例对应一笔账单的未结清金额 |
payent_amount | 当前实例对应一笔账单的现金支付金额 |
pretax_amount | 当前实例对应一笔账单的应付金额 |
pretax_gross_amount | 当前实例对应一笔账单的原始金额 |
usage | 当前实例对应一笔账单的资源用量 |
up | 指标采集的连接性 |
Ingress(Job名称:arms-ack-ingress)
指标 | 描述 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
go_cgo_go_to_c_calls_calls_total | Go CGO调用C函数次数总计 |
go_gc_cycles_automatic_gc_cycles_total | 自动GC周期总数 |
go_gc_cycles_forced_gc_cycles_total | 强制GC周期总数 |
go_gc_cycles_total_gc_cycles_total | 总GC周期数 |
go_gc_duration_seconds | Go GC耗时(秒) |
go_gc_duration_seconds_count | Go GC耗时(秒) |
go_gc_duration_seconds_sum | Go GC耗时总和 |
go_gc_heap_allocs_by_size_bytes_total_bucket | 按大小分类的Go GC堆分配总计(字节)- 桶 |
go_gc_heap_allocs_by_size_bytes_total_count | 按大小分类的Go GC堆分配总计(字节)- 计数 |
go_gc_heap_allocs_by_size_bytes_total_sum | 按大小分类的Go GC堆分配总计(字节)- 总和 |
go_gc_heap_allocs_bytes_total | Go GC堆分配字节总计 |
go_gc_heap_allocs_objects_total | Go GC堆分配对象总计 |
go_gc_heap_frees_by_size_bytes_total_bucket | 按大小释放的Go GC堆释放总计(字节)- 桶 |
go_gc_heap_frees_by_size_bytes_total_count | 按大小释放的Go GC堆释放总计(字节)- 计数 |
go_gc_heap_frees_by_size_bytes_total_sum | 按大小释放的Go GC堆释放总计(字节)- 总和 |
go_gc_heap_frees_bytes_total | Go GC堆释放字节总计 |
go_gc_heap_frees_objects_total | Go GC堆释放对象总计 |
go_gc_heap_goal_bytes | Go GC堆目标大小(字节) |
go_gc_heap_objects_objects | Go GC堆对象数量 |
go_gc_heap_tiny_allocs_objects_total | Go GC小对象分配数量总计 |
go_gc_limiter_last_enabled_gc_cycle | 最后一次启用GC周期 |
go_gc_pauses_seconds_total_bucket | Go GC暂停时间分布(秒)- 桶 |
go_gc_pauses_seconds_total_count | Go GC暂停时间分布(秒)- 计数 |
go_gc_pauses_seconds_total_sum | Go GC暂停时间分布(秒)- 总和 |
go_gc_stack_starting_size_bytes | Go GC栈起始大小(字节) |
go_goroutines | Go 运行协程数 |
go_info | Go 信息 |
go_memory_classes_heap_free_bytes | Go 内存类别 - 堆空闲字节数 |
go_memory_classes_heap_objects_bytes | Go 内存类别 - 堆对象字节数 |
go_memory_classes_heap_released_bytes | Go 内存类别 - 堆已释放字节数 |
go_memory_classes_heap_stacks_bytes | Go 内存类别 - 堆栈字节数 |
go_memory_classes_heap_unused_bytes | Go 内存类别 - 堆未使用字节数 |
go_memory_classes_metadata_mcache_free_bytes | Go 内存类别 - 元数据mcache空闲字节数 |
go_memory_classes_metadata_mcache_inuse_bytes | Go 内存类别 - 元数据mcache使用中字节数 |
go_memory_classes_metadata_mspan_free_bytes | Go 内存类别 - 元数据mspan空闲字节数 |
go_memory_classes_metadata_mspan_inuse_bytes | Go 内存类别 - 元数据mspan使用中字节数 |
go_memory_classes_metadata_other_bytes | Go 内存类别 - 其他元数据字节数 |
go_memory_classes_os_stacks_bytes | Go 内存类别 - 操作系统栈字节数 |
go_memory_classes_other_bytes | Go 内存类别 - 其他字节数 |
go_memory_classes_profiling_buckets_bytes | Go 内存类别 - 分析桶字节数 |
go_memory_classes_total_bytes | Go 内存类别 - 总字节数 |
go_memstats_alloc_bytes | Go 内存统计 - 分配字节数 |
go_memstats_alloc_bytes_total | Go 内存统计 - 累计分配字节数 |
go_memstats_buck_hash_sys_bytes | Go 内存统计 - 哈希表系统字节数 |
go_memstats_frees_total | Go 内存统计 - 总释放次数 |
go_memstats_gc_cpu_fraction | Go 内存统计 - GC CPU占比 |
go_memstats_gc_sys_bytes | Go 内存统计 - GC系统字节数 |
go_memstats_heap_alloc_bytes | Go 内存统计 - 堆分配字节数 |
go_memstats_heap_idle_bytes | Go 内存统计 - 堆空闲字节数 |
go_memstats_heap_inuse_bytes | Go 内存统计 - 堆使用中字节数 |
go_memstats_heap_objects | Go 内存统计 - 堆对象数量 |
go_memstats_heap_released_bytes | Go 内存统计 - 堆已释放字节数 |
go_memstats_heap_sys_bytes | Go 内存统计 - 堆系统字节数 |
go_memstats_last_gc_time_seconds | Go 内存统计 - 上次GC时间(秒) |
go_memstats_lookups_total | Go 内存统计 - 查找总数 |
go_memstats_mallocs_total | Go 内存统计 - 总分配次数 |
go_memstats_mcache_inuse_bytes | Go 内存统计 - mcache使用中字节数 |
go_memstats_mcache_sys_bytes | Go 内存统计 - mcache系统字节数 |
go_memstats_mspan_inuse_bytes | Go 内存统计 - mspan使用中字节数 |
go_memstats_mspan_sys_bytes | Go 内存统计 - mspan系统字节数 |
go_memstats_next_gc_bytes | Go 内存统计 - 下次GC释放字节数 |
go_memstats_other_sys_bytes | Go 内存统计 - 其他系统字节数 |
go_memstats_stack_inuse_bytes | Go 内存统计 - 栈使用中字节数 |
go_memstats_stack_sys_bytes | Go 内存统计 - 栈系统字节数 |
go_memstats_sys_bytes | Go 内存统计 - 系统字节总计 |
go_sched_gomaxprocs_threads | Go 调度器 - 最大可并行数(线程) |
go_sched_goroutines_goroutines | Go 调度器 - 当前goroutine数量 |
go_sched_latencies_seconds_bucket | Go 调度延迟(秒)- 桶 |
go_sched_latencies_seconds_count | Go 调度延迟(秒)- 计数 |
go_sched_latencies_seconds_sum | Go 调度延迟(秒)- 总和 |
go_threads | Go 线程数 |
nginx_ingress_controller_admission_config_size | Nginx Ingress控制器 - Admission Config大小 |
nginx_ingress_controller_admission_render_duration | Nginx Ingress控制器 - 渲染耗时 |
nginx_ingress_controller_admission_render_ingresses | Nginx Ingress控制器 - 渲染的Ingress数量 |
nginx_ingress_controller_admission_roundtrip_duration | Nginx Ingress控制器 - 往返处理耗时 |
nginx_ingress_controller_admission_tested_duration | Nginx Ingress控制器 - 测试耗时 |
nginx_ingress_controller_admission_tested_ingresses | Nginx Ingress控制器 - 测试的Ingress数量 |
nginx_ingress_controller_build_info | Nginx Ingress控制器 - 构建信息 |
nginx_ingress_controller_bytes_sent_bucket | Nginx Ingress控制器 - 发送字节总计(桶) |
nginx_ingress_controller_bytes_sent_count | Nginx Ingress控制器 - 发送字节总计(计数) |
nginx_ingress_controller_bytes_sent_sum | Nginx Ingress控制器 - 发送字节总计(总和) |
nginx_ingress_controller_check_errors | Nginx Ingress控制器 - 检查错误数 |
nginx_ingress_controller_check_success | Nginx Ingress控制器 - 检查成功数 |
nginx_ingress_controller_config_hash | Nginx Ingress控制器 - 配置哈希 |
nginx_ingress_controller_config_last_reload_successful | Nginx Ingress控制器 - 配置最后加载是否成功 |
nginx_ingress_controller_config_last_reload_successful_timestamp_seconds | Nginx Ingress控制器 - 配置最后成功加载时间(秒) |
nginx_ingress_controller_connect_duration_seconds_bucket | Nginx Ingress控制器 - 连接耗时(秒)- 桶 |
nginx_ingress_controller_connect_duration_seconds_count | Nginx Ingress控制器 - 连接耗时(秒)- 计数 |
nginx_ingress_controller_connect_duration_seconds_sum | Nginx Ingress控制器 - 连接耗时(秒)- 总和 |
nginx_ingress_controller_errors | Nginx Ingress控制器 - 错误数 |
nginx_ingress_controller_header_duration_seconds_bucket | Nginx Ingress控制器 - 头部处理耗时(秒)- 桶 |
nginx_ingress_controller_header_duration_seconds_count | Nginx Ingress控制器 - 头部处理耗时(秒)- 计数 |
nginx_ingress_controller_header_duration_seconds_sum | Nginx Ingress控制器头部耗时总和(秒) |
nginx_ingress_controller_ingress_upstream_latency_seconds | Nginx Ingress控制器上游延迟时间(秒) |
nginx_ingress_controller_ingress_upstream_latency_seconds_count | Nginx Ingress控制器上游延迟计数 |
nginx_ingress_controller_ingress_upstream_latency_seconds_sum | Nginx Ingress控制器上游延迟总和(秒) |
nginx_ingress_controller_leader_election_status | Nginx Ingress控制器Leader选举状态 |
nginx_ingress_controller_nginx_process_connections | Nginx Ingress控制器nginx进程连接数 |
nginx_ingress_controller_nginx_process_connections_total | Nginx Ingress控制器nginx进程总连接数 |
nginx_ingress_controller_nginx_process_cpu_seconds_total | Nginx Ingress控制器nginx进程CPU使用秒总数 |
nginx_ingress_controller_nginx_process_num_procs | Nginx Ingress控制器nginx进程数量 |
nginx_ingress_controller_nginx_process_oldest_start_time_seconds | Nginx Ingress控制器nginx进程最老启动时间(秒) |
nginx_ingress_controller_nginx_process_read_bytes_total | Nginx Ingress控制器nginx进程读取字节总数 |
nginx_ingress_controller_nginx_process_requests_total | Nginx Ingress控制器nginx进程请求总数 |
nginx_ingress_controller_nginx_process_resident_memory_bytes | Nginx Ingress控制器nginx进程驻留内存字节数 |
nginx_ingress_controller_nginx_process_virtual_memory_bytes | Nginx Ingress控制器nginx进程虚拟内存字节数 |
nginx_ingress_controller_nginx_process_write_bytes_total | Nginx Ingress控制器nginx进程写入字节总数 |
nginx_ingress_controller_orphan_ingress | Nginx Ingress控制器孤立Ingress数量 |
nginx_ingress_controller_request_duration_seconds_bucket | Nginx Ingress控制器请求耗时分布(秒) |
nginx_ingress_controller_request_duration_seconds_count | Nginx Ingress控制器请求耗时计数(秒) |
nginx_ingress_controller_request_duration_seconds_sum | Nginx Ingress控制器请求耗时总和(秒) |
nginx_ingress_controller_request_size_bucket | Nginx Ingress控制器请求大小分布 |
nginx_ingress_controller_request_size_count | Nginx Ingress控制器请求大小计数 |
nginx_ingress_controller_request_size_sum | Nginx Ingress控制器请求大小总和 |
nginx_ingress_controller_requests | Nginx Ingress控制器请求总数 |
nginx_ingress_controller_response_duration_seconds_bucket | Nginx Ingress控制器响应耗时分布(秒) |
nginx_ingress_controller_response_duration_seconds_count | Nginx Ingress控制器响应耗时计数(秒) |
nginx_ingress_controller_response_duration_seconds_sum | Nginx Ingress控制器响应耗时总和(秒) |
nginx_ingress_controller_response_size_bucket | Nginx Ingress控制器响应大小分布 |
nginx_ingress_controller_response_size_count | Nginx Ingress控制器响应大小计数 |
nginx_ingress_controller_response_size_sum | Nginx Ingress控制器响应大小总和 |
nginx_ingress_controller_ssl_certificate_info | Nginx Ingress控制器SSL证书信息 |
nginx_ingress_controller_ssl_expire_time_seconds | Nginx Ingress控制器SSL证书过期时间(秒) |
nginx_ingress_controller_success | Nginx Ingress控制器成功次数 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
up | 指标采集的连接性 |
Koordinator(Job名称:kube-system/koordlet-metrics-podmonitor、koord-manager-metrics-service)
指标 | 描述 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
koord_manager_recommender_recommendation_workload_target | 资源画像功能工作负载推荐规格指标 |
koordlet_container_resource_limits | 容器资源limit指标 |
koordlet_container_resource_requests | 容器资源request指标 |
koordlet_node_priority_resource_reclaimable | 节点资源优先级指标 |
koordlet_node_resource_allocatable | 节点分配资源指标 |
scrape_duration_seconds | 抓取持续时间(秒) |
scrape_samples_post_metric_relabeling | 抓取样本数(指标重标签后) |
scrape_samples_scraped | 抓取样本数 |
scrape_series_added | 抓取新增序列数 |
slo_manager_recommender_recommendation_workload_target | 资源画像功能工作负载推荐规格指标(已废弃) |
up | 指标采集的连接性 |
ACK专有版ETCD组件(Job名称:etcd)
指标 | 描述 |
aliyun_prometheus_agent_append_duration_seconds | 阿里云Prometheus探针追加操作耗时(秒) |
aliyun_prometheus_agent_job_discovery_status | 阿里云Prometheus探针采集作业发现状态 |
aliyun_prometheus_agent_scrape_custom_error | 阿里云Prometheus探针自定义采集错误数 |
aliyun_prometheus_agent_scrapes_by_target_total | 阿里云Prometheus探针按Target抓取总次数 |
aliyun_prometheus_agent_target_info | 阿里云Prometheus探针的Target信息 |
cpu_utilization_core | CPU核心利用率 |
etcd_cluster_version | ETCD集群版本 |
etcd_debugging_auth_revision | ETCD调试认证修订号 |
etcd_debugging_disk_backend_commit_rebalance_duration_seconds_bucket | ETCD调试磁盘后端提交再平衡持续时间分布(秒) |
etcd_debugging_disk_backend_commit_rebalance_duration_seconds_count | ETCD调试MVCC数据库压缩再平衡持续时间计数(秒) |