Prometheus监控支持的容器、云服务基础指标有哪些_可观测监控 Prometheus 版(Prometheus)-阿里云帮助中心

可观测监控 Prometheus 版按照指标上报次数收费。指标分为两种类型：基础指标和自定义指标，非基础指标的即是自定义指标。其中，基础指标不收费，自定义指标于2020年01月06日开始收费。

容器集群

可观测监控 Prometheus 版支持的容器集群基础指标如下所示。

Prometheus状态信息的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标说明
_arms-prom/kubelet/1	基础指标	promhttp_metric_handler_requests_in_flight	-
		go_memstats_mallocs_total	是一个计数器值，用于显示有多少堆对象进行分配了。可以使用`rate()`函数来计算堆对象分配速率。
		go_memstats_lookups_total	是一个计数器值，用于计算有多少指针解引用。可以使用`rate()`函数来计算指针解引用速率。
		go_memstats_last_gc_time_seconds	上一次GC完成时的时间戳。
		go_memstats_heap_sys_bytes	该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。
		go_memstats_heap_released_bytes	显示有多少空闲Span已归还操作系统。
		go_memstats_heap_objects	显示有多少对象是堆上在分配的，会随着GC和新对象的分配而改变。
		go_memstats_heap_inuse_bytes	显示正在使用的Span占用字节数。
		go_memstats_heap_idle_bytes	显示空闲Span占用的内存字节数。
		go_memstats_heap_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		go_memstats_gc_sys_bytes	显示垃圾收集元数据占用内存大小。
		go_memstats_gc_cpu_fraction	显示自程序启动以来，GC所占用CPU时间的比例。
		go_memstats_frees_total	是一个计数器值，用于显示有多个堆对象被释放。可以使用`rate()`函数计算堆对象释放速率。同时可以通过`go_memstats_mallocs_total -go_memstats_frees_total`得到存活的堆对象数量。
		go_memstats_buck_hash_sys_bytes	显示用于Profiling的哈希表占用的内存大小。
		go_memstats_alloc_bytes_total	该指标随着对象在堆中分配而增加，但在释放对象时并不会减少。类似Prometheus的计数器类型，对该指标可以使用`rate()`来获取内存消耗速度。
		go_memstats_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		scrape_duration_seconds	-
		go_info	该指标提供了Go版本信息。该指标数据来自`runtime.Version()`。
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		scrape_samples_post_metric_relabeling	-
		go_gc_duration_seconds_sum	-
		go_gc_duration_seconds_count	-
		blackbox_exporter_config_last_reload_successful	-
		blackbox_exporter_config_last_reload_success_timestamp_seconds	-
		scrape_samples_scraped	-
		blackbox_exporter_build_info	-
		arms_prometheus_target_scrapes_sample_out_of_order_total	-
		arms_prometheus_target_scrapes_sample_out_of_bounds_total	-
		arms_prometheus_target_scrapes_sample_duplicate_timestamp_total	-
		scrape_series_added	-
		arms_prometheus_target_scrapes_exceeded_sample_limit_total	-
		arms_prometheus_target_scrapes_cache_flush_forced_total_arms-prom/kubelet/1	-
		arms_prometheus_target_scrape_pools_total	-
		statsd_metric_mapper_cache_gets_total	-
		statsd_metric_mapper_cache_hits_total	-
		statsd_metric_mapper_cache_length	-
		arms_prometheus_target_scrape_pools_failed_total	-
		up	-
		arms_prometheus_target_scrape_pool_reloads_total	-
		arms_prometheus_target_scrape_pool_reloads_failed_total	-

API Server任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
apiserver	基础指标	apiserver_request_duration_seconds_bucket（默认废弃）
		apiserver_admission_controller_admission_duration_seconds_bucket
		apiserver_request_total
		rest_client_requests_total
		apiserver_admission_webhook_admission_duration_seconds_bucket
		apiserver_current_inflight_requests
		up
		apiserver_admission_webhook_admission_duration_seconds_count
		scrape_samples_post_metric_relabeling
		scrape_samples_scraped
		scrape_series_added
		scrape_duration_seconds

Ingress任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标说明
arms-ack-ingress	基础指标	nginx_ingress_controller_request_duration_seconds_bucket	-
		nginx_ingress_controller_response_duration_seconds_bucket（默认废弃）	-
		nginx_ingress_controller_response_size_bucket（默认废弃）	-
		nginx_ingress_controller_request_size_bucket	-
		nginx_ingress_controller_bytes_sent_bucket	-
		go_gc_duration_seconds	数据来自调用`debug.ReadGCStats()`，调用该函数时，会将传入参数GCStats结构体的`PauseQuantile`字段设置为5，这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。
		nginx_ingress_controller_nginx_process_connections	-
		nginx_ingress_controller_request_duration_seconds_sum	-
		nginx_ingress_controller_request_duration_seconds_count（默认废弃）	-
		nginx_ingress_controller_bytes_sent_sum	-
		nginx_ingress_controller_request_size_sum	-
		nginx_ingress_controller_response_duration_seconds_count	-
		nginx_ingress_controller_response_duration_seconds_sum（默认废弃）	-
		nginx_ingress_controller_response_size_count（默认废弃）	-
		nginx_ingress_controller_bytes_sent_count	-
		nginx_ingress_controller_response_size_sum	-
		nginx_ingress_controller_request_size_count	-
		promhttp_metric_handler_requests_total	-
		nginx_ingress_controller_nginx_process_connections_total	-
		go_memstats_mcache_sys_bytes	显示从操作系统分配的，用于mcache结构体的内存大小。
		go_memstats_lookups_total	是一个计数器值，用于计算有多少指针解引用。可以使用`rate()`函数来计算指针解引用速率。
		go_threads	通过`runtime.CreateThreadProfile()`调用获取，读取的是全局allm变量。
		go_memstats_sys_bytes	该指标用于衡量Go从系统中总共获取了多少字节的内存。
		go_memstats_last_gc_time_seconds	上一次GC完成时的时间戳。
		go_memstats_heap_sys_bytes	该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。
		go_memstats_heap_objects	显示有多少对象是堆上在分配的，会随着GC和新对象的分配而改变。
		go_memstats_heap_inuse_bytes	显示正在使用的Span占用字节数。
		go_memstats_heap_idle_bytes	显示空闲Span占用的内存字节数。
		go_memstats_heap_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		go_memstats_gc_sys_bytes	显示垃圾收集元数据占用内存大小。
		promhttp_metric_handler_requests_in_flight	-
		go_memstats_stack_sys_bytes	显示从操作系统中获得多少字节的栈内存。是`go_memstats_stack_inuse_bytes` 加上操作系统线程栈得到。
		go_memstats_stack_inuse_bytes	显示栈内存Span上已使用的内存大小，该Span上面至少分配了一个栈对象。
		go_memstats_gc_cpu_fraction	显示自程序启动以来，GC所占用CPU时间的比例。
		go_memstats_frees_total	是一个计数器值，用于显示有多个堆对象被释放。可以使用`rate()`函数计算堆对象释放速率。同时可以通过`go_memstats_mallocs_total - go_memstats_frees_total`得到存活的堆对象数量。
		go_memstats_buck_hash_sys_bytes	显示用于Profiling的哈希表占用的内存大小。
		go_memstats_alloc_bytes_total	该指标随着对象在堆中分配而增加，但在释放对象时并不会减少。类似Prometheus的计数器类型，对该指标可以使用`rate()`来获取内存消耗速度。
		go_memstats_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		nginx_ingress_controller_nginx_process_num_procs	-
		go_info	该指标提供了Go版本信息。该指标数据来自`runtime.Version()`。
		go_memstats_mallocs_total	是一个计数器值，用于显示有多少堆对象进行分配了。可以使用`rate()`函数来计算堆对象分配速率。
		go_memstats_other_sys_bytes	显示用于其他运行时分配占用内存大小。
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		scrape_samples_post_metric_relabeling	-
		scrape_samples_scraped	-
		process_virtual_memory_max_bytes	-
		process_virtual_memory_bytes	即VSS（Virtual Set Size），指虚拟内存集，是全部分配的内存，包括分配但未使用的内存、共享内存、换出的内存。
		scrape_duration_seconds	-
		go_memstats_heap_released_bytes	显示有多少空闲Span已归还操作系统。
		go_gc_duration_seconds_sum	-
		go_memstats_next_gc_bytes	显示下个GC循环时候，堆占用内存大小。GC的目标是保证`go_memstats_heap_alloc_bytes`小于此值。
		go_gc_duration_seconds_count	-
		nginx_ingress_controller_config_hash	-
		nginx_ingress_controller_config_last_reload_successful	-
		nginx_ingress_controller_config_last_reload_successful_timestamp_seconds	-
		nginx_ingress_controller_ingress_upstream_latency_seconds_count	-
		nginx_ingress_controller_ingress_upstream_latency_seconds_sum	-
		process_start_time_seconds	使用到`start_time`，`start_time`描述了进程启动时的时间，单位是jiffies，数据来自`/proc/stat`。最后将`start_time`除以USER_HZ得到以秒为单位的值。
		nginx_ingress_controller_nginx_process_cpu_seconds_total	-
		scrape_series_added	-
		nginx_ingress_controller_nginx_process_oldest_start_time_seconds	-
		nginx_ingress_controller_nginx_process_read_bytes_total	-
		nginx_ingress_controller_nginx_process_requests_total	-
		nginx_ingress_controller_nginx_process_resident_memory_bytes	-
nginx_ingress_controller_nginx_process_virtual_memory_bytes	-
nginx_ingress_controller_nginx_process_write_bytes_total	-
nginx_ingress_controller_requests	-
go_memstats_mcache_inuse_bytes	显示mcache结构体使用的内存大小。
nginx_ingress_controller_success	-
process_resident_memory_bytes	即RSS（Resident Set Size），指的是常驻内存集，是进程实际使用的内存，他不包括分配但未使用的内存，也不包括换出的内存页面，但包含共享内存。
process_open_fds	通过计算`/proc/PID/fd`目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。
process_max_fds	读取`/proc/{PID}/limits` 文件中，`Max Open Files`所在行的值获得，该值是软限制（Soft Limit），软限制是内核为相应资源强制执行的值，而硬限制（Hard Limit）充当软限制的上限。
process_cpu_seconds_total	该指标计算使用到`utime`（Go进程执行在用户态模式下的滴答数）和`stime`（Go进程执行在内核态时候的滴答数，例如系统调用时），他们的单位jiffies，jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz（每秒滴答数）得到就是操作系统运行该进程的总时间（以秒为单位）。
go_memstats_mspan_sys_bytes	显示从操作系统中分配的，用于mspan结构体的内存大小。
up	-
go_memstats_mspan_inuse_bytes	显示mspan结构体使用的内存大小。
nginx_ingress_controller_ssl_expire_time_seconds	-
nginx_ingress_controller_leader_election_status	-

CoreDNS任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标说明
arms-ack-coredns	基础指标	coredns_forward_request_duration_seconds_bucket	-
		coredns_dns_request_size_bytes_bucket	-
		coredns_dns_response_size_bytes_bucket	-
		coredns_kubernetes_dns_programming_duration_seconds_bucket	-
		coredns_dns_request_duration_seconds_bucket	-
		coredns_plugin_enabled	-
		coredns_health_request_duration_seconds_bucket	-
		go_gc_duration_seconds	数据来自调用`debug.ReadGCStats()`，调用该函数时，会将传入参数GCStats结构体的`PauseQuantile`字段设置为5，这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。
		coredns_forward_responses_total	-
		coredns_forward_request_duration_seconds_sum	-
		coredns_forward_request_duration_seconds_count	-
		coredns_dns_requests_total	-
		coredns_forward_conn_cache_misses_total	-
		coredns_dns_responses_total	-
		coredns_cache_entries	-
		coredns_cache_hits_total	-
		coredns_forward_conn_cache_hits_total	-
		coredns_forward_requests_total	-
		coredns_dns_request_size_bytes_sum	-
		coredns_dns_response_size_bytes_count	-
		coredns_dns_response_size_bytes_sum	-
		coredns_dns_request_size_bytes_count	-
		scrape_duration_seconds	-
		scrape_samples_scraped	-
		scrape_series_added	-
		up	-
		scrape_samples_post_metric_relabeling	-
		go_memstats_lookups_total	是一个计数器值，用于计算有多少指针解引用。可以使用`rate()`函数来计算指针解引用速率。
		go_memstats_last_gc_time_seconds	上一次GC完成时的时间戳。
		go_memstats_heap_sys_bytes	该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。
		coredns_build_info	-
		go_memstats_heap_released_bytes	显示有多少空闲Span已归还操作系统。
		go_memstats_heap_objects	显示有多少对象是堆上在分配的，会随着GC和新对象的分配而改变。
		go_memstats_heap_inuse_bytes	显示正在使用的Span占用字节数。
		go_memstats_heap_idle_bytes	显示空闲Span占用的内存字节数。
		go_memstats_heap_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		go_memstats_gc_sys_bytes	显示垃圾收集元数据占用内存大小。
		go_memstats_sys_bytes	该指标用于衡量Go从系统中总共获取了多少字节的内存。
		go_memstats_stack_sys_bytes	显示从操作系统中获得多少字节的栈内存。是`go_memstats_stack_inuse_bytes` 加上操作系统线程栈得到。
		go_memstats_mallocs_total	是一个计数器值，用于显示有多少堆对象进行分配了。可以使用`rate()`函数来计算堆对象分配速率。
		go_memstats_gc_cpu_fraction	显示自程序启动以来，GC所占用CPU时间的比例。
		go_memstats_stack_inuse_bytes	显示栈内存Span上已使用的内存大小，该Span上面至少分配了一个栈对象。
		go_memstats_frees_total	是一个计数器值，用于显示有多个堆对象被释放。可以使用`rate()`函数计算堆对象释放速率。同时可以通过`go_memstats_mallocs_total - go_memstats_frees_total`得到存活的堆对象数量。
		go_memstats_buck_hash_sys_bytes	显示用于Profiling的哈希表占用的内存大小。
		go_memstats_alloc_bytes_total	该指标随着对象在堆中分配而增加，但在释放对象时并不会减少。类似Prometheus的计数器类型，对该指标可以使用`rate()`来获取内存消耗速度。
		go_memstats_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该值与`go_memstats_heap_alloc_bytes`相同。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		coredns_cache_misses_total	-
		go_memstats_other_sys_bytes	显示用于其他运行时分配占用内存大小。
		go_memstats_mcache_inuse_bytes	显示mcache结构体使用的内存大小。
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		process_virtual_memory_max_bytes	-
		process_virtual_memory_bytes	即VSS（Virtual Set Size），指虚拟内存集，是全部分配的内存，包括分配但未使用的内存、共享内存、换出的内存。
		go_gc_duration_seconds_sum	-
		go_gc_duration_seconds_countarms-ack-coredns	-
		go_memstats_next_gc_bytes	显示下个GC循环时候，堆占用内存大小。GC的目标是保证`go_memstats_heap_alloc_bytes`小于此值。
		coredns_dns_request_duration_seconds_count	-
		coredns_reload_failed_total	-
		coredns_panics_total	-
		coredns_local_localhost_requests_total	-
		coredns_kubernetes_dns_programming_duration_seconds_sum	-
		coredns_kubernetes_dns_programming_duration_seconds_count	-
		coredns_dns_request_duration_seconds_sum	-
		coredns_hosts_reload_timestamp_seconds	-
		oredns_health_request_failures_total	-
process_start_time_seconds	使用到`start_time`，`start_time`描述了进程启动时的时间，单位是jiffies，数据来自`/proc/stat`。最后将`start_time`除以USER_HZ得到以秒为单位的值。
process_resident_memory_bytes	即RSS（Resident Set Size），指的是常驻内存集，是进程实际使用的内存，他不包括分配但未使用的内存，也不包括换出的内存页面，但包含共享内存。
process_open_fds	通过计算`/proc/PID/fd`目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。
process_max_fds	读取`/proc/{PID}/limits` 文件中，`Max Open Files`所在行的值获得，该值是软限制（Soft Limit），软限制是内核为相应资源强制执行的值，而硬限制（Hard Limit）充当软限制的上限。
process_cpu_seconds_total	该指标计算使用到`utime`（Go进程执行在用户态模式下的滴答数）和`stime`（Go进程执行在内核态时候的滴答数，例如系统调用时），他们的单位jiffies，jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz（每秒滴答数）得到就是操作系统运行该进程的总时间（以秒为单位）。
coredns_health_request_duration_seconds_sum	-
coredns_health_request_duration_seconds_count	-
go_memstats_mspan_sys_bytes	显示从操作系统中分配的，用于mspan结构体的内存大小。
coredns_forward_max_concurrent_rejects_total	-
coredns_forward_healthcheck_broken_total	-
go_memstats_mcache_sys_bytes	显示从操作系统分配的，用于mcache结构体的内存大小。
go_memstats_mspan_inuse_bytes	显示mspan结构体使用的内存大小。
go_threads	通过`runtime.CreateThreadProfile()`调用获取，读取的是全局allm变量。
go_info	该指标提供了Go版本信息。该指标数据来自`runtime.Version()`。

采集自Kube-State-Metrics任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
_kube-state-metrics	基础指标	kube_pod_container_status_waiting_reason
		kube_pod_status_phase
		kube_pod_container_status_last_terminated_reason
		kube_pod_container_status_terminated_reason
		kube_pod_status_ready
		kube_node_status_condition
		kube_pod_container_status_running
		kube_pod_container_status_restarts_total
		kube_pod_container_info
		kube_pod_container_status_waiting
		kube_pod_container_status_terminated
		kube_pod_labels
		kube_pod_owner
		kube_pod_info
		kube_pod_container_resource_limits
		kube_persistentvolume_status_phase
		kube_pod_container_resource_requests_memory_bytes
		kube_pod_container_resource_requests_cpu_cores
		kube_pod_container_resource_limits_memory_bytes
		kube_node_status_capacity
		kube_service_info
		kube_pod_container_resource_limits_cpu_cores
		kube_deployment_status_replicas_updated
		kube_deployment_status_replicas_unavailable
		kube_deployment_spec_replicas
		kube_deployment_created
		kube_deployment_metadata_generation
		kube_deployment_status_replicas
		kube_deployment_labels
		kube_deployment_status_observed_generation
		kube_deployment_status_replicas_available
		kube_deployment_spec_strategy_rollingupdate_max_unavailable
		kube_daemonset_status_desired_number_scheduled
		kube_daemonset_updated_number_scheduled
		kube_daemonset_status_number_ready
		kube_daemonset_status_number_misscheduled
		kube_daemonset_status_number_available
		kube_daemonset_status_current_number_scheduled
		kube_daemonset_created
		kube_node_status_allocatable_cpu_cores
		kube_node_status_capacity_memory_bytes
		kube_node_spec_unschedulable
		kube_node_status_allocatable_memory_bytes
		kube_node_labels
		kube_node_info
		kube_namespace_labels
		kube_node_status_capacity_cpu_cores
		kube_node_status_capacity_pods
		kube_node_status_allocatable_pods
		kube_node_spec_taint
		kube_statefulset_status_replicas
		kube_statefulset_replicas
		kube_statefulset_created
		up
		scrape_samples_scraped
		scrape_duration_seconds
		scrape_samples_post_metric_relabeling
		scrape_series_added

Kubelet任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标含义
_arms/kubelet/metric	基础指标	rest_client_request_duration_seconds_bucket	-
		apiserver_client_certificate_expiration_seconds_bucket	-
		kubelet_pod_worker_duration_seconds_bucket	-
		kubelet_pleg_relist_duration_seconds_bucket	-
		workqueue_queue_duration_seconds_bucket	-
		rest_client_requests_total	-
		go_gc_duration_seconds	数据来自调用`debug.ReadGCStats()`，调用该函数时，会将传入参数GCStats结构体的`PauseQuantile`字段设置为5，这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。
		process_cpu_seconds_total	该指标计算使用到`utime`（Go进程执行在用户态模式下的滴答数）和`stime`（Go进程执行在内核态时候的滴答数，例如系统调用时），他们的单位jiffies，jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz（每秒滴答数）得到就是操作系统运行该进程的总时间（以秒为单位）。
		process_resident_memory_bytes	即RSS（Resident Set Size），指的是常驻内存集，是进程实际使用的内存，他不包括分配但未使用的内存，也不包括换出的内存页面，但包含共享内存。
		kubernetes_build_info	-
		kubelet_node_name	-
		kubelet_certificate_manager_client_ttl_seconds	-
		kubelet_certificate_manager_client_expiration_renew_errors	-
		scrape_duration_seconds	-
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		crape_samples_post_metric_relabeling	-
		scrape_samples_scraped	-
		scrape_series_added	-
		up	-
		apiserver_client_certificate_expiration_seconds_count	-
		workqueue_adds_total	-
		workqueue_depth	-

Cadvisor任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
_arms/kubelet/cadvisor	基础指标	container_memory_failures_total（默认废弃）
		container_memory_rss
		container_spec_memory_limit_bytes
		container_memory_failcnt
		container_memory_cache
		container_memory_swap
		container_memory_usage_bytes
		container_memory_max_usage_bytes
		container_cpu_load_average_10s
		container_fs_reads_total（默认废弃）
		container_fs_writes_total（默认废弃）
		container_network_transmit_errors_total
		container_network_receive_bytes_total
		container_network_transmit_packets_total
		container_network_receive_errors_total
		container_network_receive_bytes_total
		container_network_receive_errors_total
		container_network_transmit_errors_total
		container_memory_working_set_bytes
		container_cpu_usage_seconds_total
		container_fs_reads_bytes_total
		container_fs_writes_bytes_total
		container_spec_cpu_quota
		container_cpu_cfs_periods_total
		container_cpu_cfs_throttled_periods_total
		container_cpu_cfs_throttled_seconds_total
		container_fs_inodes_free
		container_fs_io_time_seconds_total
		container_fs_io_time_weighted_seconds_total
		container_fs_limit_bytes
		container_tasks_state（默认废弃）
		container_fs_read_seconds_total（默认废弃）
		container_fs_write_seconds_total（默认废弃）
		container_fs_usage_bytes
		container_fs_inodes_total
		container_fs_io_current
		scrape_duration_seconds
		scrape_samples_scraped
		machine_cpu_cores
		machine_memory_bytes
		scrape_samples_post_metric_relabeling
		scrape_series_added
		up
_arms-prom/kube-apiserver/cadvisor	基础指标	scrape_duration_seconds
		up
		scrape_samples_scraped
		scrape_samples_post_metric_relabeling
		scrape_series_added

ACK Scheduler任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
ack-scheduler	基础指标	rest_client_request_duration_seconds_bucket
		scheduler_pod_scheduling_attempts_bucket
		rest_client_requests_total
		scheduler_pending_pods
		scheduler_scheduler_cache_size
		up

etcd任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
etcd	基础指标	etcd_disk_backend_commit_duration_seconds_bucket
		up
		etcd_server_has_leader
		etcd_debugging_mvcc_keys_total
		etcd_debugging_mvcc_db_total_size_in_bytes
		etcd_server_leader_changes_seen_total

Node任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标说明
node-exporter	基础指标	node_filesystem_size_bytes	-
		node_filesystem_readonly	-
		node_filesystem_free_bytes	-
		node_filesystem_avail_bytes	-
		node_cpu_seconds_total	-
		node_network_receive_bytes_total	-
		node_network_receive_errs_total	-
		node_network_transmit_bytes_total	-
		node_network_receive_packets_total	-
		node_network_transmit_drop_total	-
		node_network_transmit_errs_total	-
		node_network_up	-
		node_network_transmit_packets_total	-
		node_network_receive_drop_total	-
		go_gc_duration_seconds	数据来自调用`debug.ReadGCStats()`，调用该函数时，会将传入参数GCStats结构体的`PauseQuantile`字段设置为5，这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。
		node_load5	-
		node_filefd_allocated	-
		node_exporter_build_info	-
		node_disk_written_bytes_total	-
		node_disk_writes_completed_total	-
		node_disk_write_time_seconds_total	-
		node_nf_conntrack_entries	-
		node_nf_conntrack_entries_limit	-
		node_processes_max_processes	-
		node_processes_pids	-
		node_sockstat_TCP_alloc	-
		node_sockstat_TCP_inuse	-
		node_sockstat_TCP_tw	-
		node_timex_offset_seconds	-
		node_timex_sync_status	-
		node_uname_info	-
		node_vmstat_pgfault	-
		node_vmstat_pgmajfault	-
		node_vmstat_pgpgin	-
		node_vmstat_pgpgout	-
		node_disk_reads_completed_total	-
		node_disk_read_time_seconds_total	-
		process_cpu_seconds_total	该指标计算使用到`utime`（Go进程执行在用户态模式下的滴答数）和`stime`（Go进程执行在内核态时候的滴答数，例如系统调用时），他们的单位jiffies，jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz（每秒滴答数）得到就是操作系统运行该进程的总时间（以秒为单位）。
		node_disk_read_bytes_total	-
		node_disk_io_time_weighted_seconds_total	-
		node_disk_io_time_seconds_total	-
		node_disk_io_now	-
		node_context_switches_total	-
		node_boot_time_seconds	-
		process_resident_memory_bytes	即RSS（Resident Set Size），指的是常驻内存集，是进程实际使用的内存，他不包括分配但未使用的内存，也不包括换出的内存页面，但包含共享内存。
		node_intr_total	-
		node_load1	-
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		scrape_duration_seconds	-
		node_load15	-
		scrape_samples_post_metric_relabeling	-
		node_netstat_Tcp_PassiveOpens	-
		scrape_samples_scraped	-
		node_netstat_Tcp_CurrEstab	-
		scrape_series_added	-
		node_netstat_Tcp_ActiveOpens	-
		node_memory_MemTotal_bytes	-
		node_memory_MemFree_bytes	-
		node_memory_MemAvailable_bytes	-
		node_memory_Cached_bytes	-
		up	-
		node_memory_Buffers_bytes	-

GPU任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称	指标说明
gpu-exporter	基础指标	go_gc_duration_seconds	数据来自调用`debug.ReadGCStats()`，调用该函数时，会将传入参数GCStats结构体的`PauseQuantile`字段设置为5，这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。
		promhttp_metric_handler_requests_total	-
		scrape_series_added	-
		up	-
		scrape_duration_seconds	-
		scrape_samples_scraped	-
		scrape_samples_post_metric_relabeling	-
		go_memstats_mcache_inuse_bytes	显示mcache结构体使用的内存大小。
		process_virtual_memory_max_bytes	-
		process_virtual_memory_bytes	即VSS（Virtual Set Size），指的虚拟内存集，是全部分配的内存，包括分配但未使用的内存、共享内存、换出的内存。
		process_start_time_seconds	使用到`start_time`，`start_time`描述了进程启动时的时间，单位是jiffies，数据来自`/proc/stat`。最后将`start_time`除以USER_HZ得到以秒为单位的值。
		go_memstats_next_gc_bytes	显示下个GC循环时候，堆占用内存大小。GC的目标是保证`go_memstats_heap_alloc_bytes`小于此值。
		go_memstats_heap_objects	显示有多少对象是堆上在分配的，会随着GC和新对象的分配而改变。
		process_resident_memory_bytes	即RSS（Resident Set Size），指的是常驻内存集，是进程实际使用的内存，他不包括分配但未使用的内存，也不包括换出的内存页面，但包含共享内存。
		process_open_fds	通过计算`/proc/PID/fd`目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。
		process_max_fds	读取`/proc/{PID}/limits` 文件中，`Max Open Files`所在行的值获得，该值是软限制（Soft Limit），软限制是内核为相应资源强制执行的值，而硬限制（Hard Limit）充当软限制的上限。
		go_memstats_other_sys_bytes	显示用于其他运行时分配占用内存大小。
		go_gc_duration_seconds_count	-
		go_memstats_heap_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		process_cpu_seconds_total	该指标计算使用到`utime`（Go进程执行在用户态模式下的滴答数）和`stime`（Go进程执行在内核态时候的滴答数，例如系统调用时），他们的单位jiffies，jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz（每秒滴答数）得到就是操作系统运行该进程的总时间（以秒为单位）。
		nvidia_gpu_temperature_celsius（默认废弃）	-
		go_memstats_stack_inuse_bytes	显示栈内存Span上已使用的内存大小，该Span上面至少分配了一个栈对象。
		nvidia_gpu_power_usage_milliwatts（默认废弃）	-
		nvidia_gpu_num_devices（默认废弃）	-
		nvidia_gpu_memory_used_bytes（默认废弃）	-
		nvidia_gpu_memory_total_bytes（默认废弃）	-
		go_memstats_stack_sys_bytes	显示从操作系统中获得多少字节的栈内存。是`go_memstats_stack_inuse_bytes` 加上操作系统线程栈得到。
		nvidia_gpu_memory_allocated_bytes（默认废弃）	-
		nvidia_gpu_duty_cycle（默认废弃）	-
		nvidia_gpu_allocated_num_devices（默认废弃）	-
		promhttp_metric_handler_requests_in_flight	-
		go_memstats_sys_bytes	该指标用于衡量Go从系统中总共获取了多少字节的内存。
		go_memstats_gc_sys_bytes	显示垃圾收集元数据占用内存大小。
		go_memstats_gc_cpu_fraction	显示自程序启动以来，GC所占用CPU时间的比例。
		go_memstats_heap_released_bytes	显示有多少空闲Span已归还操作系统。
		go_memstats_frees_total	是一个计数器值，用于显示有多个堆对象被释放。可以使用`rate()`函数计算堆对象释放速率。同时可以通过`go_memstats_mallocs_total -go_memstats_frees_total`得到存活的堆对象数量。
		go_threads	通过`runtime.CreateThreadProfile()`调用获取，读取的是全局allm变量。
		go_memstats_mspan_sys_bytes	显示从操作系统中分配的，用于mspan结构体的内存大小。
		go_memstats_buck_hash_sys_bytes	显示用于Profiling的哈希表占用的内存大小。
		go_memstats_alloc_bytes_total	该指标随着对象在堆中分配而增加，但在释放对象时并不会减少。类似Prometheus的计数器类型，对该指标可以使用`rate()`来获取内存消耗速度。
		go_memstats_heap_sys_bytes	该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。
		go_memstats_mspan_inuse_bytes	显示mspan结构体使用的内存大小。
		go_memstats_alloc_bytes	该指标展示了在堆上为对象分配了多少字节的内存。该值与`go_memstats_heap_alloc_bytes`相同。该指标包括所有可达（reachable）堆对象和不可达（unreachable）对象（GC尚未释放的）占用的内存大小。
		go_info	该指标提供了Go版本信息。该指标数据来自`runtime.Version()`。
		go_memstats_last_gc_time_seconds	上一次GC完成时的时间戳。
		go_memstats_heap_inuse_bytes	显示正在使用的Span占用字节数。
		go_memstats_mcache_sys_bytes	显示从操作系统分配的，用于mcache结构体的内存大小。
		go_memstats_lookups_total	是一个计数器值，用于计算有多少指针解引用。可以使用`rate()`函数来计算指针解引用速率。
		go_memstats_mallocs_total	是一个计数器值，用于显示有多少堆对象进行分配了。可以使用`rate()`函数来计算堆对象分配速率。
		go_gc_duration_seconds_sum	-
		go_goroutines	通过`runtime.NumGoroutine()`调用获取，基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改，因此最后会检查计算的值是否小于1，如果小于1，那么返回1。
		go_memstats_heap_idle_bytes	显示空闲Span占用的内存字节数。

PV任务类型（Job）的任务名称和基础指标

任务名称（Job Name）	指标类型	指标名称
k8s-csi-cluster-pv	基础指标	cluster_pvc_detail_num_total
		cluster_pv_detail_num_total
		cluster_pv_status_num_total
		cluster_scrape_collector_success
		cluster_scrape_collector_duration_seconds
		alibaba_cloud_storage_operator_build_info
		cluster_pvc_status_num_total
		scrape_duration_seconds
		scrape_samples_post_metric_relabeling
		scrape_samples_scraped
		scrape_series_added
		up
k8s-csi-node-pv	基础指标	cluster_scrape_collector_duration_seconds
		cluster_scrape_collector_success
		alibaba_cloud_csi_driver_build_info
		up
		scrape_series_added
		scrape_samples_post_metric_relabeling
		scrape_samples_scraped
		scrape_duration_seconds

企业云监控

Prometheus实例 for 企业云监控支持的指标如下表所示。

指标分类	指标类型	指标名称	指标说明
ECS	自定义指标	cpu_util_lization	（ECS）CPU使用率
		internet_in_rate	（ECS）公网流入流量平均速率
		internet_out_rate	（ECS）公网流出流量平均速率
		disk_read_bps	（ECS）所有磁盘读取BPS
		disk_write_bps	（ECS）所有磁盘每秒读取次数
		vpc_public_ip_internet_in_Rate	（ECS）IP维度公网流入平均速率
		vpc_public_ip_internet_out_Rate	（ECS）IP维度公网流出平均速率
		cpu_total	（Agent）cpu.total
		memory_totalspace	（Agent）memory.total.space
		memory_usedutilization	（Agent）memory.used.utilization
		diskusage_utilization	（Agent）disk.usage.utilization_device
RDS	自定义指标	cpu_usage_average	CPU使用率
		disk_usage	磁盘使用率
		iops_usage	IOPS使用率
		connection_usage	连接数使用率
		data_delay	只读实例延迟
		memory_usage	内存使用率
		mysql_network_in_new	MySQL网络流入带宽
		mysql_network_out_new	MySQL网络流出带宽
		mysql_active_sessions	MySQL_ActiveSessions
		sqlserver_network_in_new	SQLServer网络流入带宽
		sqlserver_network_out_new	SQLServer网络流出带宽
NAT	自定义指标	snat_connection	SNAT连接数
		snat_connection_drop_limit	历史累积最大限制丢弃连接数
		snat_connection_drop_rate_limit	历史累积新建限制丢弃连接数
		net_rx_rate	流入带宽
		net_tx_rate	流出带宽
		net_rx_pkgs	流入包速率
		net_tx_pkgs	流出包速率
RocketMQ	自定义指标	consumer_lag_gid	消息堆积
		receive_message_count_gid	Consumer（GroupId）每分钟接收消息数量
		send_message_count_gid	Producer（GroupId）每分钟发送消息的数量
		consumer_lag_topic	消息堆积（GroupID&Topic）
		receive_message_count_topic	Consumer（GroupId&Topic）每分钟接收消息数量
		send_message_count_topic	Producer（GroupId&Topic）每分钟发送消息数量
		receive_message_count	每分钟接收消息数量
		send_message_count	每分钟发送消息数量
SLB	自定义指标	healthy_server_count	后端健康ECS实例个数
		unhealthy_server_count	后端异常ECS实例个数
		packet_tx	每秒流入数据包数
		packet_rx	每秒流出数据包数
		traffic_rx_new	流入带宽
		traffic_tx_new	流出带宽
		active_connection	TCP活跃连接数
		inactive_connection	端口非活跃连接数
		new_connection	TCP新建连接数
		max_connection	端口并发连接数
		instance_active_connection	实例活跃连接数
		instance_new_connection	实例每秒新建连接数
		instance_max_connection	实例每秒最大并发连接数
		instance_drop_connection	实例每秒丢失连接数
		instance_traffic_rx	实例每秒入bit数
		instance_traffic_tx	实例每秒出bit数
E-MapReduce（EMR）	自定义指标	active_applications	active状态的作业个数
		active_users	active的用户数
		aggregate_containers_allocated	总共分配的container个数
		aggregate_containers_released	总共释放的container个数
		allocated_containers	分配的container个数
		apps_completed	已完成的作业数
		apps_failed	失败的作业数
		apps_killed	被杀死的作业数
		apps_pending	等待的作业数
		apps_running	运行中的作业数
		apps_submitted	提交的作业数
		available_mb	当前队列当前可用的内存大小
		available_vcores	当前队列可用的VCore个数
		pending_containers	等待的container个数
		reserved_containers	预留的container个数
EIP	自定义指标	net_rx_rate	流入带宽
		net_tx_rate	流出带宽
		net_rx_pkgs_rate	流入包速率
		net_tx_pkgs_rate	流出包速率
		out_ratelimit_drop_speed	限速丢包速率
OSS	自定义指标	availability	可用性
		request_valid_rate	有效请求率
		success_rate	成功请求占比
		network_error_rate	网络错误请求占比
		total_request_count	总请求数
		valid_count	有效请求数
		internet_send	公网流出流量
		internet_recv	公网流入流量
		intranet_send	内网流出流量
		intranet_recv	内网流入流量
		success_count	成功请求总数
		network_error_count	网络错误请求总数
		client_timeout_count	客户端超时错误请求总数
Elasticsearch（ES）	自定义指标	node_cpu_utilization	Elasticsearch实例节点CPU使用率
		node_heap_memory_utilization	Elasticsearch实例节点HeapMemory使用率
		node_stats_exception_log_count	Exception次数
		node_stats_full_gc_collection_count	FullGc次数
		node_disk_utilization	Elasticsearch实例节点磁盘使用率
		node_load_1m	节点Load_1m
		cluster_query_qps	集群查询QPS
		cluster_index_qps	ClusterIndexQPS
Logstash	自定义指标	cpu_percent	Logstash实例节点CPU使用率
		node_heap_memory	节点内存使用量
		node_disk_usage	Logstash实例节点磁盘使用率
DRDS	自定义指标	cpu_utilization	CPU使用率
		connection_count	连接数
		logic_qps	逻辑QPS
		logic_rt	逻辑RT
		memory_utilization	内存利用率
		network_input_traffic	网络输入带宽
		network_output_traffic	网络输出带宽
		physics_qps	物理QPS
		physics_rt	物理RT
		thread_count	活跃线程数
		com_insert_select	私有RDS_MySQL每秒InsertSelect量
		com_replace	私有RDS_MySQL每秒Replace量
		com_replace_select	私有RDS_MySQL每秒ReplaceSelect量
		com_select	私有RDS_MySQL每秒Select量
		com_update	私有RDS_MySQL每秒Update量
		conn_usage	私有RDS_MySQL连接数利用率
		cpu_usage	私有RDS_MySQL CPU使用率
		disk_usage	私有RDS_MySQL磁盘使用率
		ibuf_dirty_ratio	私有RDS_MySQL_BP脏页百分率
		ibuf_pool_reads	私有RDS_MySQL每秒物理读次数
		ibuf_read_hit	私有RDS_MySQL_BP读命中率
		ibuf_request_r	私有RDS_MySQL每秒逻辑读次数
		ibuf_request_w	私有RDS_MySQL每秒逻辑写次数
		ibuf_use_ratio	私有RDS_MySQL_BP利用率
		inno_data_read	私有RDS_MySQL_InnoDB每秒读取数据量
		inno_data_written	私有RDS_MySQL_InnoDB每秒写入数据量
		inno_row_delete	私有RDS_MySQL_InnoDB每秒删除行数
		inno_row_insert	私有RDS_MySQL_InnoDB每秒插入行数
		inno_row_readed	私有RDS_MySQL_InnoDB每秒读取行数
		inno_row_update	私有RDS_MySQL_InnoDB每秒更新行数
		innodb_log_write_requests	私有RDS_MySQL_InnoDB每秒日志写请求次数
		innodb_log_writes	私有RDS_MySQL_InnoDB每秒日志物理写次数
		innodb_os_log_fsyncs	私有RDS_MySQL_InnoDB每秒日志fsync量
		input_traffic_ps	私有RDS_MySQL网络流入带宽
		iops_usage	私有RDS_MySQL IOPS利用率
		mem_usage	私有RDS_MySQL内存利用率
		output_traffic_ps	私有RDS_MySQL网络流出带宽
		qps	私有RDS_MySQL每秒查询量
		slave_lag	私有RDS_MySQL只读实例延迟
		slow_queries	私有RDS_MySQL每秒慢查询量
		tb_tmp_disk	私有RDS_MySQL每秒创建临时表数量
Kafka	自定义指标	instance_disk_capacity	实例磁盘使用率
		instance_message_input	实例消息生产量
		instance_message_output	实例消息消费量
		topic_message_input	Topic消息生产量
		topic_message_output	Topic消息消费量
MongoDB	自定义指标	cpu_utilization	CPU使用率
		memory_utilization	内存使用百分比
		disk_utilization	磁盘使用率
		iops_utilization	IOPS使用率
		qps	每秒请求数
		connect_amount	连接数使用量
		instance_disk_amount	实例占用磁盘空间量
		data_disk_amount	数据占用磁盘空间量
		log_disk_amount	日志占用磁盘空间量
		intranet_in	内网网络入流量
		intranet_out	内网网络出流量
		number_requests	请求数
		op_insert	Insert操作次数
		op_query	Query操作次数
		op_update	Update操作次数
		op_delete	Delete操作次数
		op_getmore	Getmore操作次数
		op_command	Command操作次数
PolarDB	自定义指标	active_connections	活跃连接数
		blks_read_delta	数据块读取数
		cluster_active_sessions	活跃连接数
		cluster_connection_utilization	连接数使用率
		cluster_cpu_utilization	CPU使用率
		cluster_data_io	每秒存储引擎IO吞吐量
		cluster_data_iops	每秒存储引擎IO次数
		cluster_mem_hit_ratio	内存命中率
		cluster_memory_utilization	内存使用率
		cluster_qps	每秒查询数量
		cluster_slow_queries_ps	每秒慢查询数量
		cluster_tps	每秒事务数
		conn_usage	连接使用率
		cpu_total	CPU使用率
		db_age	数据库最大年龄
		instance_connection_utilization	实例连接数使用率
		instance_cpu_utilization	实例CPU使用率
		instance_input_bandwidth	实例输入带宽
		instance_memory_utilization	实例内存使用率
		instance_output_bandwidth	实例输出带宽
		mem_usage	内存利用率
		pls_data_size	pg数据盘大小
		pls_iops	pg IOPS
		pls_iops_read	pg读IOPS
		pls_iops_write	pg写IOPS
		pls_pg_wal_dir_size	pg WAL日志大小
		pls_throughput	pg IO吞吐
		pls_throughput_read	pg读IO吞吐
		pls_throughput_write	pg写IO吞吐
		swell_time	pg膨胀点
		tps	pg TPS
		cluster_iops	每秒IO次数
Redis	自定义指标	intranet_in_ratio	写入带宽使用率
		intranet_out_ratio	读取带宽使用率
		failed_count	操作失败数
		cpu_usage	CPU使用率
		used_memory	内存使用量
		used_connection	已用连接数
		used_qps	已用QPS数量

云服务自监控

Prometheus for 云服务自监控支持的指标如下表所示。

消息队列RocketMQ

指标分类	指标类型	指标名称	指标说明
生产者	自定义指标	rocketmq_producer_requests	发送相关API调用次数
		rocketmq_producer_messages	发送消息量
		rocketmq_producer_message_size_bytes	发送消息的总大小
		rocketmq_producer_send_success_rate	发送消息成功率
		rocketmq_producer_failure_api_calls	发送API调用失败次数
		rocketmq_producer_send_rt_milliseconds_avg	发送消息耗时平均值
		rocketmq_producer_send_rt_milliseconds_min	发送消息耗时最小值
		rocketmq_producer_send_rt_milliseconds_max	发送消息耗时最大值
		rocketmq_producer_send_rt_milliseconds_p95	发送消息耗时P95值
		rocketmq_producer_send_rt_milliseconds_p99	发送消息耗时P99值
消费者	自定义指标	rocketmq_consumer_requests	消费消息相关API调用次数
		rocketmq_consumer_send_back_requests	消费者消费失败回发接口调用次数
		rocketmq_consumer_send_back_messages	消费者消费失败回发的消息
		rocketmq_consumer_messages	消费消息量
		rocketmq_consumer_message_size_bytes	消费消息量大小（一分钟累积量）
		rocketmq_consumer_ready_and_inflight_messages	消息消费滞后量（包括已就绪消息量和处理中消息量）
		rocketmq_consumer_ready_messages	已就绪消息量
		rocketmq_consumer_inflight_messages	处理中消息量
		rocketmq_consumer_queue_time_milliseconds	消息排队时间
		rocketmq_consumer_message_await_time_milliseconds_avg	消息在消费者客户端等待处理资源耗时平均值
		rocketmq_consumer_message_await_time_milliseconds_min	消息在消费者客户端等待处理资源耗时最小值
		rocketmq_consumer_message_await_time_milliseconds_max	消息在消费者客户端等待处理资源耗时最大值
		rocketmq_consumer_message_await_time_milliseconds_p95	消息在消费者客户端等待处理资源耗时P95值
		rocketmq_consumer_message_await_time_milliseconds_p99	消息在消费者客户端等待处理资源耗时P99值
		rocketmq_consumer_message_process_time_milliseconds_avg	消费者处理消息耗时平均值
		rocketmq_consumer_message_process_time_milliseconds_min	消费者处理消息耗时最小值
		rocketmq_consumer_message_process_time_milliseconds_max	消费者处理消息耗时最大值
		rocketmq_consumer_message_process_time_milliseconds_p95	消费者处理消息耗时P95值
		rocketmq_consumer_message_process_time_milliseconds_p99	消费者处理消息耗时P99值
		rocketmq_consumer_consume_success_rate	消费消息成功率
		rocketmq_consumer_failure_api_calls	消费API调用失败次数
		rocketmq_consumer_to_dlq_messages	进死信消息量
Overview	自定义指标	rabbitmq_instance_api_total	实例级别API调用次数，秒级别
		rabbitmq_connections_opened_total	已打开的连接总数
		rabbitmq_connections_closed_total	已关闭的连接总数
		rabbitmq_channels_opened_total	打开的通道总数
		rabbitmq_channels_closed_total	关闭的通道总数
		rabbitmq_queues_declared_total	声明的队列总数
		rabbitmq_queues_deleted_total	删除的队列总数
		rabbitmq_exchange_declared_total	-
		rabbitmq_exchange_deleted_total	-
		rabbitmq_exchange_bind_total	-
		rabbitmq_exchange_unbind_total	-
		rabbitmq_queue_bind_total	-
		rabbitmq_queue_unbind_total	-
		rabbitmq_connections	当前打开的连接
		rabbitmq_channels	目前开放的渠道
Connections	自定义指标	rabbitmq_connection_channels	连接上的通道
Exchange	自定义指标	rabbitmq_exchange_messages_published_in_total	流入消息量
Exchange	自定义指标	rabbitmq_exchange_messages_published_out_total	流出消息量
Queues	自定义指标	rabbitmq_queue_messages_published_total	发布到队列的消息总数
		rabbitmq_queue_messages_ready	准备好交付给消费者的消息量
		rabbitmq_queue_messages_unacked	定时中的消息量
		rabbitmq_queue_deliver_total	已传递给消费者但尚未确认的消息总数
		rabbitmq_queue_get_total	-
		rabbitmq_queue_ack_total	-
		rabbitmq_queue_uack_total	-
		rabbitmq_queue_recover_total	-
		rabbitmq_queue_reject_total	-
		rabbitmq_queue_consumers	队列中的消费者

MongoDB

指标类型	指标名称	指标说明
自定义指标	avg_rt	实例平均响应时间
	bytes_in	实例的网络进口流量
	bytes_out	实例的网络出口流量
	bytes_read_into_cache	WiredTiger，显示读入Cache的数据量大小
	bytes_written_from_cache	WiredTiger，显示从Cache写的磁盘大小
	command	协议命令操作QPS数
	conn_usage	连接数使用率，显示实例当前连接数与最大连接数的比值
	connections_active	实例当前活跃连接数
	cpu_usage	实例的CPU使用率
	current_conn	实例当前连接总数
	data_iops	数据盘的IOPS使用量
	data_size	实例数据磁盘使用空间
	delete	删除操作QPS数
	disk_usage	磁盘使用率，显示实例总使用空间与最大可使用空间的比值
	document_deleted_ps	实例删除的文档数量
	document_inserted_ps	实例插入的文档数量
	document_returned_ps	实例返回的文档数量
	document_updated_ps	实例更新的文档数量。
	getmore	读取操作QPS数
	gl_ac_readers	实例当前使用全局读锁数量
	gl_ac_writers	实例当前使用全局写锁数量
	gl_cq_readers	全局读锁的等待队列长度
	gl_cq_total	所有全局锁的等待队列长度
	gl_cq_writers	全局写锁的等待队列长度
	ins_size	实例磁盘总使用空间
	insert	插入操作QPS数
	iocheck_cost	IO延迟，当前IO的响应性能
	iops_usage	IOPS使用率
	job_cursors_closed	Cursors，显示因关闭会话关闭的Cursor数量
	log_iops	日志盘的IOPS使用量
	log_size	实例日志磁盘使用空间
	maximum_bytes_configured	WiredTiger，显示配置最大可用的磁盘大小
	mem_usage	内存使用率
	moveChunk_donor_started_ps	moveChunk，当前节点作为moveChunk源的次数
	moveChunk_recip_stared_ps	moveChunk，当前节点作为moveChunk目标的次数
	noTimeout_open	Cursors，显示当前无超时时间的Cursor打开数量
	operation_exactIDCount_ps	操作详情，显示需要通过广播方式获取匹配_id的信息请求数
	operation_scanAndOrder_ps	操作详情，显示无法使用索引进行Sort的请求数
	operation_writeConflicts_ps	操作详情，显示发生写冲突的次数
	pinned_open	Cursors，显示当前有超时时间的Cursor打开数量
	query	查询操作QPS数
	queryExecutor_scannedObject_ps	查询扫描索引与文档数量，显示查询扫描文档的数量
	queryExecutor_scanned_ps	查询扫描索引与文档数量，显示查询扫描索引的数量
	read_concurrent_trans_available	WiredTiger请求队列，显示可用的读并发请求数
	read_concurrent_trans_out	WiredTiger请求队列，显示读并发请求数
	repl_lag	主备延迟，显示实例主备节点的数据同步延时信息
	timed_out	Cursors，显示因超时关闭的Cursor数量
	total_open	Cursors，显示当前Cursor打开数量
	ttl_deletedDocuments_ps	TTL，显示因TTL索引而删除的文档数量
	ttl_passes_ps	TTL，显示后台TTL线程进行删除的次数
	update	更新操作QPS数
	write_concurrent_trans_available	WiredTiger请求队列，显示可用的写并发数
	write_concurrent_trans_out	WiredTiger请求队列，显示写并发请求数
	wt_cache_dirty_usage	WiredTigerCache使用率，显示实例WiredTiger引擎脏Cache使用率
	wt_cache_usage	WiredTigerCache使用率，显示实例WiredTiger引擎脏Cache使用率

Flink

Flink指标

指标	含义	详情	单位	指标类型
`flink_jobmanager_job_numRestarts`	作业错误恢复次数	作业出错重启次数，不包含JM Failover次数。	次数	自定义指标
`flink_taskmanager_job_task_operator_currentEmitEventTimeLag`	业务延时	延时较大时，表示作业可能在拉取数据或者处理数据时存在延时。	毫秒（ms）	自定义指标
`flink_taskmanager_job_task_operator_currentFetchEventTimeLag`	传输延时	延时较大时，表示作业可能在拉取数据时存在延时。	毫秒（ms）	自定义指标
`flink_taskmanager_job_task_numRecordsIn`	所有Operator输入的记录总数	如果某个算子的numRecordsIn值长时间未增长，可能是由于上游吞掉了数据，因此未成功传递数据。此时，您需要查看上游数据。	条	自定义指标
`flink_taskmanager_job_task_numRecordsOut`	输出记录总数	如果某个算子的numRecordsOut的值长时间未增长，可能是由于作业代码逻辑错误，导致数据被吞掉，因此未成功传递数据。此时，您需要查看作业代码逻辑。	条	自定义指标
`flink_taskmanager_job_task_operator_numBytesIn`	输入字节总数	查看上游吞吐的输入情况，帮助您观察作业流量表现。	Byte	自定义指标
`flink_taskmanager_job_task_operator_numBytesOut`	输出字节总数	查看上游吞吐的输出情况，帮助您观察作业流量表现。	Byte	自定义指标
`flink_taskmanager_job_task_operator_numRecordsIn`	所有Operator输入的记录总数	如果某个算子的numRecordsIn值长时间未增长，可能是由于上游吞掉了数据，因此未成功传递数据。此时，您需要查看上游数据。	条	自定义指标
`flink_taskmanager_job_task_operator_numRecordsInPerSecond`	整个数据流每秒输入的记录数	适用于需要监控整个数据流的处理速度的场景。例如，您可以使用numRecordsInPerSecond观察整个数据流的处理速度是否达到了预期水平，以及在不同的输入数据负载下性能的变化情况。	条/秒	自定义指标
`flink_taskmanager_job_task_operator_numRecordsOut`	输出记录总数	如果某个算子的numRecordsOut的值长时间未增长，可能是由于作业代码逻辑错误，导致数据被吞掉，因此未成功传递数据。此时，您需要查看作业代码逻辑。	条	自定义指标
`flink_taskmanager_job_task_operator_numRecordsOutPerSecond`	整个数据流每秒输出的记录数	适用于需要监控整个数据流输出速度的场景，可以测量整个数据流每秒输出的记录数。例如，您可以使用numRecordsOutPerSecond观察整个数据流的输出速度是否达到了预期水平，以及在不同的输出数据负载下性能的变化情况。	条/秒	自定义指标
`flink_taskmanager_job_task_operator_source_numRecordsIn`	仅Source Operator的输入记录	查看上游数据输入情况。	条	自定义指标
`flink_taskmanager_job_task_operator_sink_numRecordsOut`	Sink端输出记录总数	查看上游数据输出情况。	条	自定义指标
`flink_taskmanager_job_task_numRecordsInPerSecond`	整个数据流每秒输入的记录数	适用于需要监控整个数据流的处理速度的场景。例如，您可以使用numRecordsInPerSecond观察整个数据流的处理速度是否达到了预期水平，以及在不同的输入数据负载下性能的变化情况。	条/秒	自定义指标
`flink_taskmanager_job_task_numRecordsOutPerSecond`	整个数据流每秒输出的记录数	适用于需要监控整个数据流输出速度的场景，可以测量整个数据流每秒输出的记录数。例如，您可以使用numRecordsOutPerSecond观察整个数据流的输出速度是否达到了预期水平，以及在不同的输出数据负载下性能的变化情况。	条/秒	自定义指标
`flink_taskmanager_job_task_operator_source_numRecordsInPerSecond`	数据源Source端每秒输入的记录数	适用于需要了解每个数据源的生成速度的场景，可以测量每个数据源每秒生成的记录数。例如，在一个数据流中，不同的数据源可能会产生不同数量的记录，使用numRecordsInOfSourcePerSecond可以帮助您了解每个数据源的生成速度，并对数据流进行调整以达到更好的性能。同时，该数据用于监控告警。如果该值为0，可能是由于上游吞掉了数据。您需要查看是否由于上游数据一直未被消费，因此导致输出阻塞问题。	条/秒	自定义指标
`flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond`	数据目的Sink端每秒输出的记录数	适用于需要了解每个Sink的输出速度的场景，可以测量每个Sink端每秒输出的记录数。例如，在一个数据流中，不同的Sink可能会输出不同数量的记录。使用numRecordsOutOfSinkPerSecond可以帮助您了解每个Sink的输出速度，并对数据流进行调整以达到更好的性能。同时，该数据用于监控告警。如果该值为0，可能是作业代码逻辑错误，导致全部数据被过滤了。此时，您需要查看作业代码逻辑。	条/秒	自定义指标
`flink_taskmanager_job_task_numBuffersInLocalPerSecond`	每秒内本地消耗的数据缓冲区（buffer）数量	如果该指标值很高，表示任务之间的本地通信（即在相同节点上的通信）很频繁。	条/秒	自定义指标
`flink_taskmanager_job_task_numBuffersInRemotePerSecond`	每秒内从远程任务管理器接收到的缓冲区的数量	该指标反映了跨TaskManager通信的频率。	条/秒	自定义指标
`flink_taskmanager_job_task_numBuffersOutPerSecond`	每秒向其他任务发送的缓冲区的数量	该指标可以帮助您了解任务的输出压力以及网络带宽的使用情况。	条/秒	自定义指标
`flink_taskmanager_job_task_numBytesInLocalPerSecond`	每秒输入字节（Local）总数	查看上游流速的输入情况，帮助您观察作业流量表现。	Byte/秒	自定义指标
`flink_taskmanager_job_task_operator_numBytesOutPerSecond`	每秒输出字节总数	查看上游吞吐输出情况，帮助您观察作业流量表现。	Byte/秒	自定义指标
`flink_taskmanager_job_task_operator_pendingRecords`	源端未读取数据的条数	外部系统中尚未被Source拉取的数据条数。	条	自定义指标
`flink_taskmanager_job_task_operator_sourceIdleTime`	源端未处理数据的时间	该指标反映Source是否有闲置。如果该指标值较大，表示数据在外部系统中的产生速率较低。	毫秒（ms）	自定义指标
`flink_taskmanager_job_task_operator_numBytesInPerSecond`	每秒输入字节总数	无	Byte/秒	自定义指标
`flink_taskmanager_job_task_numBytesOutPerSecond`	每秒输出字节总数	无	Byte/秒	自定义指标
`flink_taskmanager_job_task_operator_currentSendTime`	发送最新一条记录用时	无	毫秒 (ms)	自定义指标
`flink_jobmanager_job_totalNumberOfCheckpoints`	总Checkpoint数量	无	个	自定义指标
`flink_jobmanager_job_numberOfFailedCheckpoints`	失败的Checkpoints数量	无	个	自定义指标
`flink_jobmanager_job_numberOfCompletedCheckpoints`	已完成的Checkpoints数量	无	个	自定义指标
`flink_jobmanager_job_numberOfInProgressCheckpoints`	进行中的Checkpoints数量	无	个	自定义指标
`flink_jobmanager_job_lastCheckpointDuration`	最近一个Checkpoint的持续时间	如果Checkpoint耗时过长或超时，可能是由于状态过大、临时网络原因、Barrier未对齐或数据存在反压。	毫秒（ms）	自定义指标
`flink_jobmanager_job_lastCheckpointSize`	最近一个Checkpoint的大小	最近一次实际上传的Checkpoint大小，您可以在Checkpoint有瓶颈时帮助分析Checkpoint性能。	Byte	自定义指标
`flink_taskmanager_job_task_operator_state_name_stateClearLatency`	单次状态清理延迟最大值	查看清理State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_valueStateGetLatency`	单次Value State访问延迟的最大值	查看算子访问Value State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_valueStateUpdateLatency`	单次Value State Update延迟的最大值	查看Value State Update性能。	纳秒（ns	自定义指标
`flink_taskmanager_job_task_operator_state_name_aggregatingStateGetLatency`	单次Aggregating State访问延迟的最大值	查看算子访问Aggregating State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_aggregatingStateAddLatency`	单次Aggregating State Add延迟的最大值	查看Aggregating State Add性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_aggregatingStateMergeNamespacesLatency`	单次Aggregating State Merge Namespace延迟的最大值	查看Aggregating State Merge Namespace性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_reducingStateGetLatency`	单次Reducing State访问延迟的最大值	查看算子访问Reducing State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_reducingStateAddLatency`	单次Reducing State Add延迟的最大值	查看Reducing State Add性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_reducingStateMergeNamespacesLatency`	单次Reducing State Merge Namespace延迟的最大值	查看Reducing State Merge Namespace的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateGetLatency`	单次Map State访问延迟的最大值	查看算子访问Map State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStatePutLatency`	单次Map State Put延迟的最大值	查看Map State Put性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStatePutAllLatency`	单次Map State Put All延迟的最大值	查看Map State Put All性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateRemoveLatency`	单次Map State Remove延迟的最大值	查看Map State Remove性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateContainsLatency`	单次Map State Contains延迟的最大值	查看Map State Contains性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateEntriesInitLatency`	单次Map State EntriesInit延迟的最大值	查看Map State EntriesInit性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateKeysInitLatency`	单次Map State KeysInit延迟的最大值	查看Map State KeysInit性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateValuesInitLatency`	单次Map State ValuesInit延迟的最大值	查看Map State ValuesInit性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateIteratorInitLatency`	单次Map State IteratorInit延迟的最大值	查看Map State IteratorInit性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateIsEmptyLatency`	单次Map State Empty延迟的最大值	查看Map State Empty性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateIteratorHasNextLatency`	单次Map State IteratorHasNext延迟的最大值	查看Map State IteratorHasNext性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateIteratorNextLatency`	单次Map State IteratorNext延迟的最大值	查看Map State IteratorNext性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_mapStateIteratorRemoveLatency`	单次Map State IteratorRemove延迟的最大值	查看Map State IteratorRemove性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_listStateGetLatency`	单次List State访问延迟的最大值	查看算子访问List State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_listStateAddLatency`	单次List State Add延迟的最大值	查看List State Add性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_listStateAddAllLatency`	单次List State Add All延迟的最大值	查看List State Add All性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_listStateUpdateLatency`	单次List State Update延迟的最大值	查看List State Update性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_listStateMergeNamespacesLatency`	单次List State Merge Namespace延迟的最大值	查看List State Merge Namespace性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_sortedMapStateFirstEntryLatency`	单次Sorted Map State第一个条目访问延迟的最大值	查看算子访问Sorted Map State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_state_name_sortedMapStateLastEntryLatency`	单次Sorted Map State最后一个条目访问延迟的最大值	查看算子访问Sorted Map State的性能。	纳秒（ns）	自定义指标
`flink_taskmanager_job_task_operator_geminiDB_total_size`	状态数据的大小	通过观测该指标，您可以：直接或提前定位可能出现的State瓶颈的节点。判断TTL是否生效。	Byte	自定义指标
`flink_taskmanager_job_task_operator_geminiDB_total_filesize`	状态数据文件的大小	通过观测该指标，您可以：查看本地磁盘中State部分占用的大小，在占用较大时提前采取措施。判断是否因状态数据过大，导致本地磁盘空间不足。	Byte	自定义指标
`flink_taskmanager_job_task_currentInputWatermark`	每个Task最近收到一条水印的时间	TM收到数据的延时情况。	无	自定义指标
`flink_taskmanager_job_task_operator_watermarkLag`	Watermark延迟	Subtask级别的作业延迟情况。	毫秒（ms）	自定义指标
`flink_jobmanager_Status_JVM_CPU_Load`	单个JM CPU的负载	如果该值长期大于100%，表示CPU很繁忙，负载很高。这可能会影响系统性能，导致系统卡顿或响应时间过长等。	无	基础指标
`flink_jobmanager_Status_JVM_Memory_Heap_Used`	JM的堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Memory_Heap_Committed`	JM提交的堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Memory_Heap_Max`	JM的最大堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Memory_NonHeap_Used`	JM的非堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Memory_NonHeap_Committed`	JM提交的非堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Memory_NonHeap_Max`	JM的最大非堆内存	无	Byte	基础指标
`flink_jobmanager_Status_JVM_Threads_Count`	JM线程数	JM线程数过多会导致占用过大的内存空间，从而降低作业稳定性。	个	基础指标
`flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count`	JM GC次数	GC次数过多会导致占用过大的内存空间，从而影响作业性能。该指标可以帮助您进行作业诊断，排查作业级别的故障原因。	次数	基础指标
`flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count`	JM 年轻代 GC次数（G1垃圾回收器）	无	次数	自定义指标
`flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count`	JM 老年代 GC次数（G1垃圾回收器）	无	次数	自定义指标
`flink_jobmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time`	JM 年轻代 GC时间（G1垃圾回收器）	无	毫秒（ms）	自定义指标
`flink_jobmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time`	JM 老年代 GC时间（G1垃圾回收器）	无	毫秒（ms）	自定义指标
`flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count`	JM CMS垃圾回收器的回收次数	无	次数	基础指标
`flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time`	每次JM GC时间	长时间的GC会导致占用过大的内存空间，从而影响作业的性能。该指标可以帮助您进行作业诊断，排查作业级别的故障原因。	毫秒（ms）	基础指标
`flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time`	JM CMS垃圾回收器的回收耗时	无	毫秒（ms）	基础指标
`flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded`	JM所在的JVM在创建后，加载的类总数	JM所在的JVM创建后，加载类的总数过大，会导致占用过大的内存空间，从而影响作业性能。	无	基础指标
`flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded`	JM所在的JVM在创建后，卸载的类总数	JM所在的JVM创建后，卸载类的总数过大，会导致占用过大的内存空间，从而影响作业性能。	无	基础指标
`flink_taskmanager_Status_JVM_CPU_Load`	单个TM CPU的负载	指一段时间内CPU正在处理以及等待CPU处理的进程数之和，通常可以理解为CPU的繁忙程度。 CPU的繁忙程度和CPU核数有关。Flink中的CPU Load值为CPU Usage/CPU核数。`flink_taskmanager_Status_JVM_CPU_Load`大于CPU Load值时，说明CPU处理可能存在堵塞。	无	基础指标
`flink_jobmanager_Status_ProcessTree_CPU_Usage`	单个JM CPU的CPU使用率	该指标值反映了Flink对CPU时间片的占用情况。 1 Core CPU用满时，该值为100%。 4 Core CPU用满时，该值为400%。如果该值长期大于100%，说明CPU非常繁忙。如果负载很高，但CPU使用率较低，可能是由于频繁的读写操作，导致不可中断睡眠状态的进程过多。	无	基础指标
`flink_taskmanager_Status_ProcessTree_CPU_Usage`	单个TM CPU的CPU使用率	该指标值反映了Flink对CPU时间片的占用情况。 1 Core CPU用满时，该值为100%。 4 Core CPU用满时，该值为400%。如果该值长期大于100%，说明CPU非常繁忙。如果负载很高，但CPU使用率较低，可能是由于频繁的读写操作，导致不可中断睡眠状态的进程过多。	无	基础指标
`flink_taskmanager_Status_JVM_Memory_Heap_Used`	TM的堆内存	无	Byte	基础指标
`flink_taskmanager_Status_JVM_Memory_Heap_Committed`	TM堆内存的已提交量	无	Byte	基础指标
`flink_taskmanager_Status_JVM_Memory_Heap_Max`	TM最大堆内存	无	Byte	基础指标
`flink_taskmanager_Status_JVM_Memory_NonHeap_Used`	TM的非堆内存	无	Byte	基础指标
`flink_taskmanager_Status_JVM_Memory_NonHeap_Committed`	TM非堆内存的已提交量	无	Byte	基础指标
`flink_taskmanager_Status_JVM_Memory_NonHeap_Max`	TM最大非堆内存	无	Byte	基础指标
`flink_taskmanager_Status_ProcessTree_Memory_RSS`	通过Linux获取整个进程的内存	查看进程内存的变化。	Byte	基础指标
`flink_taskmanager_Status_JVM_Threads_Count`	TM线程数	TM线程数过多会导致占用过多内存，从而降低作业稳定性。	个	基础指标
`flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count`	TM GC次数	GC次数过多会导致占用过大的内存空间，从而影响作业性能。该指标可以帮助您进行作业诊断，排查作业Task级别的故障原因。	次数	基础指标
`flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Count`	TM 年轻代 GC次数（G1垃圾回收器）	无	次数	自定义指标
`flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Count`	TM 老年代 GC次数（G1垃圾回收器）	无	次数	自定义指标
`flink_taskmanager_Status_JVM_GarbageCollector_G1_Young_Generation_Time`	TM 年轻代 GC时间（G1垃圾回收器）	无	毫秒（ms）	自定义指标
`flink_taskmanager_Status_JVM_GarbageCollector_G1_Old_Generation_Time`	TM 老年代 GC时间（G1垃圾回收器）	无	毫秒（ms）	自定义指标
`flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count`	TM CMS垃圾回收器的回收次数	无	次数	基础指标
`flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time`	每次TM GC时间	长时间GC会导致占用过大的内存空间，从而影响作业性能。该指标帮助您进行作业诊断，排查作业级别的故障原因。	毫秒（ms）	基础指标
`flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time`	JM CMS垃圾回收器的回收耗时	无	毫秒（ms）	基础指标
`flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded`	TM所在的JVM在创建后，加载的类总数	TM所在的JVM创建后，加载类的总数过大，会导致占用过大的内存空间，从而影响作业性能。	无	基础指标
`flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded`	TM所在的JVM在创建后，卸载的类总数	TM所在的JVM创建后，卸载类的总数过大，会导致占用过大的内存空间，从而影响作业性能。	无	基础指标
`flink_jobmanager_job_uptime`	作业运行时间	无	毫秒（ms）	自定义指标
`flink_jobmanager_numRunningJobs`	运行的作业数目	无	无	自定义指标
`flink_jobmanager_taskSlotsAvailable`	可用Task Slot数目	无	无	自定义指标
`flink_jobmanager_taskSlotsTotal`	Task Slot的总数	无	无	自定义指标
`flink_jobmanager_numRegisteredTaskManagers`	注册的TM数目	无	无	自定义指标
`flink_taskmanager_job_task_numBytesInRemotePerSecond`	作业每秒从远程源读取的字节数	无	Byte/秒	自定义指标
`flink_taskmanager_job_task_operator_numLateRecordsDropped`	窗口延迟丢弃数	无	个	自定义指标
`flink_taskmanager_job_task_operator_lateRecordsDroppedRate`	窗口延迟比率	无	无	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_isSnapshotting`	作业是否在处理全量数据阶段	确定作业处理阶段。	无	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_isBinlogReading`	作业是否在处理增量数据阶段	确定作业处理阶段。	无	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_numTablesRemaining`	作业是否在处理增量数据阶段	查看剩余未处理的表数量。	个	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_numTablesSnapshotted`	全量阶段等待处理的表的个数	查看剩余未处理的表数量。	个	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_numSnapshotSplitsProcessed`	全量阶段已经处理的表的个数	查看已经处理的表数量。	个	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_cdcns_schema_table_numSnapshotSplitsProcessed`	全量阶段已经处理的分片的个数	查看已经处理的分片数。	个	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_numSnapshotSplitsRemaining`	全量阶段等待处理的分片的个数	查看未处理的分片数。	个	自定义指标
`flink_jobmanager_job_operator_coordinator_enumerator_cdcns_schema_table_numSnapshotSplitsRemaining`	全量阶段等待处理的分片的个数	查看未处理的分片数。	个	自定义指标
`flink_taskmanager_job_task_operator_currentReadTimestampMs`	当前读取到的最新数据的时间戳	查看目前最新的binlog数据时间。	毫秒（ms）	自定义指标
`flink_taskmanager_job_task_operator_numSnapshotRecords`	全量阶段已经处理的数据条数	查看全量阶段已处理的数据量.	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numRecordsIn`	每个表已经读取的数据条数	查看每个表已经处理的全部数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numSnapshotRecords`	每个表全量阶段已经处理的数据条数	查看每个表全量阶段已处理的数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numInsertDMLRecords`	每个表增量阶处理的insert DML语句条数	查看每个表insert语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numUpdateDMLRecords`	每个表增量阶处理的update DML语句条数	查看每个表update语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numDeleteDMLRecords`	每个表增量阶处理的delete DML语句条数	查看每个表delete语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_cdcns_schema_table_numDDLRecords`	每个表增量阶处理的DDL语句条数	查看每个表DDL语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_numInsertDMLRecords`	增量阶处理的insert DML语句条数	查看insert语句数据量	条	自定义指标
`flink_taskmanager_job_task_operator_numUpdateDMLRecords`	增量阶处理的update DML语句条数	查看update语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_numDeleteDMLRecords`	增量阶处理的delete DML语句条数	查看delete语句数据量。	条	自定义指标
`flink_taskmanager_job_task_operator_numDDLRecords`	增量阶处理的DDL语句条数	查看DDL语句数据量。	条	自定义指标

指标常用Label

Label	说明
`vvpNamespace`	项目空间名称。
`deploymentName`	部署作业名。
`deploymentId`	部署作业ID。
`jobId`	Job ID。

其他

若您需要查看ARMS应用监控的指标，请参考应用监控指标说明。