文档

指标说明

更新时间:

可观测监控 Prometheus 版按照指标上报次数收费。指标分为两种类型:基础指标和自定义指标,非基础指标的即是自定义指标。其中,基础指标不收费,自定义指标于2020年01月06日开始收费。

容器集群

可观测监控 Prometheus 版支持的容器集群基础指标如下所示。

Prometheus状态信息的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标说明

_arms-prom/kubelet/1

基础指标

promhttp_metric_handler_requests_in_flight

-

go_memstats_mallocs_total

是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate()函数来计算堆对象分配速率。

go_memstats_lookups_total

是一个计数器值,用于计算有多少指针解引用。可以使用rate()函数来计算指针解引用速率。

go_memstats_last_gc_time_seconds

上一次GC完成时的时间戳。

go_memstats_heap_sys_bytes

该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间

go_memstats_heap_released_bytes

显示有多少空闲Span已归还操作系统。

go_memstats_heap_objects

显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。

go_memstats_heap_inuse_bytes

显示正在使用的Span占用字节数。

go_memstats_heap_idle_bytes

显示空闲Span占用的内存字节数。

go_memstats_heap_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

go_memstats_gc_sys_bytes

显示垃圾收集元数据占用内存大小。

go_memstats_gc_cpu_fraction

显示自程序启动以来,GC所占用CPU时间的比例。

go_memstats_frees_total

是一个计数器值,用于显示有多个堆对象被释放。可以使用rate()函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total -go_memstats_frees_total得到存活的堆对象数量。

go_memstats_buck_hash_sys_bytes

显示用于Profiling的哈希表占用的内存大小。

go_memstats_alloc_bytes_total

该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate()来获取内存消耗速度。

go_memstats_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

scrape_duration_seconds

-

go_info

该指标提供了Go版本信息。该指标数据来自runtime.Version()

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

scrape_samples_post_metric_relabeling

-

go_gc_duration_seconds_sum

-

go_gc_duration_seconds_count

-

blackbox_exporter_config_last_reload_successful

-

blackbox_exporter_config_last_reload_success_timestamp_seconds

-

scrape_samples_scraped

-

blackbox_exporter_build_info

-

arms_prometheus_target_scrapes_sample_out_of_order_total

-

arms_prometheus_target_scrapes_sample_out_of_bounds_total

-

arms_prometheus_target_scrapes_sample_duplicate_timestamp_total

-

scrape_series_added

-

arms_prometheus_target_scrapes_exceeded_sample_limit_total

-

arms_prometheus_target_scrapes_cache_flush_forced_total_arms-prom/kubelet/1

-

arms_prometheus_target_scrape_pools_total

-

statsd_metric_mapper_cache_gets_total

-

statsd_metric_mapper_cache_hits_total

-

statsd_metric_mapper_cache_length

-

arms_prometheus_target_scrape_pools_failed_total

-

up

-

arms_prometheus_target_scrape_pool_reloads_total

-

arms_prometheus_target_scrape_pool_reloads_failed_total

-

API Server任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

apiserver

基础指标

apiserver_request_duration_seconds_bucket(默认废弃)

apiserver_admission_controller_admission_duration_seconds_bucket

apiserver_request_total

rest_client_requests_total

apiserver_admission_webhook_admission_duration_seconds_bucket

apiserver_current_inflight_requests

up

apiserver_admission_webhook_admission_duration_seconds_count

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_series_added

scrape_duration_seconds

Ingress任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标说明

arms-ack-ingress

基础指标

nginx_ingress_controller_request_duration_seconds_bucket

-

nginx_ingress_controller_response_duration_seconds_bucket(默认废弃)

-

nginx_ingress_controller_response_size_bucket(默认废弃)

-

nginx_ingress_controller_request_size_bucket

-

nginx_ingress_controller_bytes_sent_bucket

-

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

nginx_ingress_controller_nginx_process_connections

-

nginx_ingress_controller_request_duration_seconds_sum

-

nginx_ingress_controller_request_duration_seconds_count(默认废弃)

-

nginx_ingress_controller_bytes_sent_sum

-

nginx_ingress_controller_request_size_sum

-

nginx_ingress_controller_response_duration_seconds_count

-

nginx_ingress_controller_response_duration_seconds_sum(默认废弃)

-

nginx_ingress_controller_response_size_count(默认废弃)

-

nginx_ingress_controller_bytes_sent_count

-

nginx_ingress_controller_response_size_sum

-

nginx_ingress_controller_request_size_count

-

promhttp_metric_handler_requests_total

-

nginx_ingress_controller_nginx_process_connections_total

-

go_memstats_mcache_sys_bytes

显示从操作系统分配的,用于mcache结构体的内存大小。

go_memstats_lookups_total

是一个计数器值,用于计算有多少指针解引用。可以使用rate()函数来计算指针解引用速率。

go_threads

通过runtime.CreateThreadProfile()调用获取,读取的是全局allm变量。

go_memstats_sys_bytes

该指标用于衡量Go从系统中总共获取了多少字节的内存。

go_memstats_last_gc_time_seconds

上一次GC完成时的时间戳。

go_memstats_heap_sys_bytes

该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间

go_memstats_heap_objects

显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。

go_memstats_heap_inuse_bytes

显示正在使用的Span占用字节数。

go_memstats_heap_idle_bytes

显示空闲Span占用的内存字节数。

go_memstats_heap_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

go_memstats_gc_sys_bytes

显示垃圾收集元数据占用内存大小。

promhttp_metric_handler_requests_in_flight

-

go_memstats_stack_sys_bytes

显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。

go_memstats_stack_inuse_bytes

显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。

go_memstats_gc_cpu_fraction

显示自程序启动以来,GC所占用CPU时间的比例。

go_memstats_frees_total

是一个计数器值,用于显示有多个堆对象被释放。可以使用rate()函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total - go_memstats_frees_total得到存活的堆对象数量。

go_memstats_buck_hash_sys_bytes

显示用于Profiling的哈希表占用的内存大小。

go_memstats_alloc_bytes_total

该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate()来获取内存消耗速度。

go_memstats_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

nginx_ingress_controller_nginx_process_num_procs

-

go_info

该指标提供了Go版本信息。该指标数据来自runtime.Version()

go_memstats_mallocs_total

是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate()函数来计算堆对象分配速率。

go_memstats_other_sys_bytes

显示用于其他运行时分配占用内存大小。

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

scrape_samples_post_metric_relabeling

-

scrape_samples_scraped

-

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。

scrape_duration_seconds

-

go_memstats_heap_released_bytes

显示有多少空闲Span已归还操作系统。

go_gc_duration_seconds_sum

-

go_memstats_next_gc_bytes

显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes小于此值。

go_gc_duration_seconds_count

-

nginx_ingress_controller_config_hash

-

nginx_ingress_controller_config_last_reload_successful

-

nginx_ingress_controller_config_last_reload_successful_timestamp_seconds

-

nginx_ingress_controller_ingress_upstream_latency_seconds_count

-

nginx_ingress_controller_ingress_upstream_latency_seconds_sum

-

process_start_time_seconds

使用到start_timestart_time描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat。最后将start_time除以USER_HZ得到以秒为单位的值。

nginx_ingress_controller_nginx_process_cpu_seconds_total

-

scrape_series_added

-

nginx_ingress_controller_nginx_process_oldest_start_time_seconds

-

nginx_ingress_controller_nginx_process_read_bytes_total

-

nginx_ingress_controller_nginx_process_requests_total

-

nginx_ingress_controller_nginx_process_resident_memory_bytes

-

nginx_ingress_controller_nginx_process_virtual_memory_bytes

-

nginx_ingress_controller_nginx_process_write_bytes_total

-

nginx_ingress_controller_requests

-

go_memstats_mcache_inuse_bytes

显示mcache结构体使用的内存大小。

nginx_ingress_controller_success

-

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

process_open_fds

通过计算/proc/PID/fd目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。

process_max_fds

读取/proc/{PID}/limits 文件中,Max Open Files所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

go_memstats_mspan_sys_bytes

显示从操作系统中分配的,用于mspan结构体的内存大小。

up

-

go_memstats_mspan_inuse_bytes

显示mspan结构体使用的内存大小。

nginx_ingress_controller_ssl_expire_time_seconds

-

nginx_ingress_controller_leader_election_status

-

CoreDNS任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标说明

arms-ack-coredns

基础指标

coredns_forward_request_duration_seconds_bucket

-

coredns_dns_request_size_bytes_bucket

-

coredns_dns_response_size_bytes_bucket

-

coredns_kubernetes_dns_programming_duration_seconds_bucket

-

coredns_dns_request_duration_seconds_bucket

-

coredns_plugin_enabled

-

coredns_health_request_duration_seconds_bucket

-

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

coredns_forward_responses_total

-

coredns_forward_request_duration_seconds_sum

-

coredns_forward_request_duration_seconds_count

-

coredns_dns_requests_total

-

coredns_forward_conn_cache_misses_total

-

coredns_dns_responses_total

-

coredns_cache_entries

-

coredns_cache_hits_total

-

coredns_forward_conn_cache_hits_total

-

coredns_forward_requests_total

-

coredns_dns_request_size_bytes_sum

-

coredns_dns_response_size_bytes_count

-

coredns_dns_response_size_bytes_sum

-

coredns_dns_request_size_bytes_count

-

scrape_duration_seconds

-

scrape_samples_scraped

-

scrape_series_added

-

up

-

scrape_samples_post_metric_relabeling

-

go_memstats_lookups_total

是一个计数器值,用于计算有多少指针解引用。可以使用rate()函数来计算指针解引用速率。

go_memstats_last_gc_time_seconds

上一次GC完成时的时间戳。

go_memstats_heap_sys_bytes

该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间

coredns_build_info

-

go_memstats_heap_released_bytes

显示有多少空闲Span已归还操作系统。

go_memstats_heap_objects

显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。

go_memstats_heap_inuse_bytes

显示正在使用的Span占用字节数。

go_memstats_heap_idle_bytes

显示空闲Span占用的内存字节数。

go_memstats_heap_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

go_memstats_gc_sys_bytes

显示垃圾收集元数据占用内存大小。

go_memstats_sys_bytes

该指标用于衡量Go从系统中总共获取了多少字节的内存。

go_memstats_stack_sys_bytes

显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。

go_memstats_mallocs_total

是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate()函数来计算堆对象分配速率。

go_memstats_gc_cpu_fraction

显示自程序启动以来,GC所占用CPU时间的比例。

go_memstats_stack_inuse_bytes

显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。

go_memstats_frees_total

是一个计数器值,用于显示有多个堆对象被释放。可以使用rate()函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total - go_memstats_frees_total得到存活的堆对象数量。

go_memstats_buck_hash_sys_bytes

显示用于Profiling的哈希表占用的内存大小。

go_memstats_alloc_bytes_total

该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate()来获取内存消耗速度。

go_memstats_alloc_bytes

该指标展示了在 上为对象分配了多少字节的内存。该值与go_memstats_heap_alloc_bytes相同。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

coredns_cache_misses_total

-

go_memstats_other_sys_bytes

显示用于其他运行时分配占用内存大小。

go_memstats_mcache_inuse_bytes

显示mcache结构体使用的内存大小。

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。

go_gc_duration_seconds_sum

-

go_gc_duration_seconds_countarms-ack-coredns

-

go_memstats_next_gc_bytes

显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes小于此值。

coredns_dns_request_duration_seconds_count

-

coredns_reload_failed_total

-

coredns_panics_total

-

coredns_local_localhost_requests_total

-

coredns_kubernetes_dns_programming_duration_seconds_sum

-

coredns_kubernetes_dns_programming_duration_seconds_count

-

coredns_dns_request_duration_seconds_sum

-

coredns_hosts_reload_timestamp_seconds

-

oredns_health_request_failures_total

-

process_start_time_seconds

使用到start_timestart_time描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat。最后将start_time除以USER_HZ得到以秒为单位的值。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

process_open_fds

通过计算/proc/PID/fd目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。

process_max_fds

读取/proc/{PID}/limits 文件中,Max Open Files所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

coredns_health_request_duration_seconds_sum

-

coredns_health_request_duration_seconds_count

-

go_memstats_mspan_sys_bytes

显示从操作系统中分配的,用于mspan结构体的内存大小。

coredns_forward_max_concurrent_rejects_total

-

coredns_forward_healthcheck_broken_total

-

go_memstats_mcache_sys_bytes

显示从操作系统分配的,用于mcache结构体的内存大小。

go_memstats_mspan_inuse_bytes

显示mspan结构体使用的内存大小。

go_threads

通过runtime.CreateThreadProfile()调用获取,读取的是全局allm变量。

go_info

该指标提供了Go版本信息。该指标数据来自runtime.Version()

采集自Kube-State-Metrics任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

_kube-state-metrics

基础指标

kube_pod_container_status_waiting_reason

kube_pod_status_phase

kube_pod_container_status_last_terminated_reason

kube_pod_container_status_terminated_reason

kube_pod_status_ready

kube_node_status_condition

kube_pod_container_status_running

kube_pod_container_status_restarts_total

kube_pod_container_info

kube_pod_container_status_waiting

kube_pod_container_status_terminated

kube_pod_labels

kube_pod_owner

kube_pod_info

kube_pod_container_resource_limits

kube_persistentvolume_status_phase

kube_pod_container_resource_requests_memory_bytes

kube_pod_container_resource_requests_cpu_cores

kube_pod_container_resource_limits_memory_bytes

kube_node_status_capacity

kube_service_info

kube_pod_container_resource_limits_cpu_cores

kube_deployment_status_replicas_updated

kube_deployment_status_replicas_unavailable

kube_deployment_spec_replicas

kube_deployment_created

kube_deployment_metadata_generation

kube_deployment_status_replicas

kube_deployment_labels

kube_deployment_status_observed_generation

kube_deployment_status_replicas_available

kube_deployment_spec_strategy_rollingupdate_max_unavailable

kube_daemonset_status_desired_number_scheduled

kube_daemonset_updated_number_scheduled

kube_daemonset_status_number_ready

kube_daemonset_status_number_misscheduled

kube_daemonset_status_number_available

kube_daemonset_status_current_number_scheduled

kube_daemonset_created

kube_node_status_allocatable_cpu_cores

kube_node_status_capacity_memory_bytes

kube_node_spec_unschedulable

kube_node_status_allocatable_memory_bytes

kube_node_labels

kube_node_info

kube_namespace_labels

kube_node_status_capacity_cpu_cores

kube_node_status_capacity_pods

kube_node_status_allocatable_pods

kube_node_spec_taint

kube_statefulset_status_replicas

kube_statefulset_replicas

kube_statefulset_created

up

scrape_samples_scraped

scrape_duration_seconds

scrape_samples_post_metric_relabeling

scrape_series_added

Kubelet任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标含义

_arms/kubelet/metric

基础指标

rest_client_request_duration_seconds_bucket

-

apiserver_client_certificate_expiration_seconds_bucket

-

kubelet_pod_worker_duration_seconds_bucket

-

kubelet_pleg_relist_duration_seconds_bucket

-

workqueue_queue_duration_seconds_bucket

-

rest_client_requests_total

-

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

kubernetes_build_info

-

kubelet_node_name

-

kubelet_certificate_manager_client_ttl_seconds

-

kubelet_certificate_manager_client_expiration_renew_errors

-

scrape_duration_seconds

-

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

crape_samples_post_metric_relabeling

-

scrape_samples_scraped

-

scrape_series_added

-

up

-

apiserver_client_certificate_expiration_seconds_count

-

workqueue_adds_total

-

workqueue_depth

-

Cadvisor任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

_arms/kubelet/cadvisor

基础指标

container_memory_failures_total(默认废弃)

container_memory_rss

container_spec_memory_limit_bytes

container_memory_failcnt

container_memory_cache

container_memory_swap

container_memory_usage_bytes

container_memory_max_usage_bytes

container_cpu_load_average_10s

container_fs_reads_total(默认废弃)

container_fs_writes_total(默认废弃)

container_network_transmit_errors_total

container_network_receive_bytes_total

container_network_transmit_packets_total

container_network_receive_errors_total

container_network_receive_bytes_total

container_network_receive_errors_total

container_network_transmit_errors_total

container_memory_working_set_bytes

container_cpu_usage_seconds_total

container_fs_reads_bytes_total

container_fs_writes_bytes_total

container_spec_cpu_quota

container_cpu_cfs_periods_total

container_cpu_cfs_throttled_periods_total

container_cpu_cfs_throttled_seconds_total

container_fs_inodes_free

container_fs_io_time_seconds_total

container_fs_io_time_weighted_seconds_total

container_fs_limit_bytes

container_tasks_state(默认废弃)

container_fs_read_seconds_total(默认废弃)

container_fs_write_seconds_total(默认废弃)

container_fs_usage_bytes

container_fs_inodes_total

container_fs_io_current

scrape_duration_seconds

scrape_samples_scraped

machine_cpu_cores

machine_memory_bytes

scrape_samples_post_metric_relabeling

scrape_series_added

up

_arms-prom/kube-apiserver/cadvisor

基础指标

scrape_duration_seconds

up

scrape_samples_scraped

scrape_samples_post_metric_relabeling

scrape_series_added

ACK Scheduler任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

ack-scheduler

基础指标

rest_client_request_duration_seconds_bucket

scheduler_pod_scheduling_attempts_bucket

rest_client_requests_total

scheduler_pending_pods

scheduler_scheduler_cache_size

up

etcd任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

etcd

基础指标

etcd_disk_backend_commit_duration_seconds_bucket

up

etcd_server_has_leader

etcd_debugging_mvcc_keys_total

etcd_debugging_mvcc_db_total_size_in_bytes

etcd_server_leader_changes_seen_total

Node任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标说明

node-exporter

基础指标

node_filesystem_size_bytes

-

node_filesystem_readonly

-

node_filesystem_free_bytes

-

node_filesystem_avail_bytes

-

node_cpu_seconds_total

-

node_network_receive_bytes_total

-

node_network_receive_errs_total

-

node_network_transmit_bytes_total

-

node_network_receive_packets_total

-

node_network_transmit_drop_total

-

node_network_transmit_errs_total

-

node_network_up

-

node_network_transmit_packets_total

-

node_network_receive_drop_total

-

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

node_load5

-

node_filefd_allocated

-

node_exporter_build_info

-

node_disk_written_bytes_total

-

node_disk_writes_completed_total

-

node_disk_write_time_seconds_total

-

node_nf_conntrack_entries

-

node_nf_conntrack_entries_limit

-

node_processes_max_processes

-

node_processes_pids

-

node_sockstat_TCP_alloc

-

node_sockstat_TCP_inuse

-

node_sockstat_TCP_tw

-

node_timex_offset_seconds

-

node_timex_sync_status

-

node_uname_info

-

node_vmstat_pgfault

-

node_vmstat_pgmajfault

-

node_vmstat_pgpgin

-

node_vmstat_pgpgout

-

node_disk_reads_completed_total

-

node_disk_read_time_seconds_total

-

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

node_disk_read_bytes_total

-

node_disk_io_time_weighted_seconds_total

-

node_disk_io_time_seconds_total

-

node_disk_io_now

-

node_context_switches_total

-

node_boot_time_seconds

-

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

node_intr_total

-

node_load1

-

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

scrape_duration_seconds

-

node_load15

-

scrape_samples_post_metric_relabeling

-

node_netstat_Tcp_PassiveOpens

-

scrape_samples_scraped

-

node_netstat_Tcp_CurrEstab

-

scrape_series_added

-

node_netstat_Tcp_ActiveOpens

-

node_memory_MemTotal_bytes

-

node_memory_MemFree_bytes

-

node_memory_MemAvailable_bytes

-

node_memory_Cached_bytes

-

up

-

node_memory_Buffers_bytes

-

GPU任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

指标说明

gpu-exporter

基础指标

go_gc_duration_seconds

数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。

promhttp_metric_handler_requests_total

-

scrape_series_added

-

up

-

scrape_duration_seconds

-

scrape_samples_scraped

-

scrape_samples_post_metric_relabeling

-

go_memstats_mcache_inuse_bytes

显示mcache结构体使用的内存大小。

process_virtual_memory_max_bytes

-

process_virtual_memory_bytes

即VSS(Virtual Set Size),指的虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。

process_start_time_seconds

使用到start_timestart_time描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat。最后将start_time除以USER_HZ得到以秒为单位的值。

go_memstats_next_gc_bytes

显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes小于此值。

go_memstats_heap_objects

显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。

process_resident_memory_bytes

即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。

process_open_fds

通过计算/proc/PID/fd目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。

process_max_fds

读取/proc/{PID}/limits 文件中,Max Open Files所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。

go_memstats_other_sys_bytes

显示用于其他运行时分配占用内存大小。

go_gc_duration_seconds_count

-

go_memstats_heap_alloc_bytes

该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

process_cpu_seconds_total

该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。

nvidia_gpu_temperature_celsius(默认废弃)

-

go_memstats_stack_inuse_bytes

显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。

nvidia_gpu_power_usage_milliwatts(默认废弃)

-

nvidia_gpu_num_devices(默认废弃)

-

nvidia_gpu_memory_used_bytes(默认废弃)

-

nvidia_gpu_memory_total_bytes(默认废弃)

-

go_memstats_stack_sys_bytes

显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。

nvidia_gpu_memory_allocated_bytes(默认废弃)

-

nvidia_gpu_duty_cycle(默认废弃)

-

nvidia_gpu_allocated_num_devices(默认废弃)

-

promhttp_metric_handler_requests_in_flight

-

go_memstats_sys_bytes

该指标用于衡量Go从系统中总共获取了多少字节的内存。

go_memstats_gc_sys_bytes

显示垃圾收集元数据占用内存大小。

go_memstats_gc_cpu_fraction

显示自程序启动以来,GC所占用CPU时间的比例。

go_memstats_heap_released_bytes

显示有多少空闲Span已归还操作系统。

go_memstats_frees_total

是一个计数器值,用于显示有多个堆对象被释放。可以使用rate()函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total -go_memstats_frees_total得到存活的堆对象数量。

go_threads

通过runtime.CreateThreadProfile()调用获取,读取的是全局allm变量。

go_memstats_mspan_sys_bytes

显示从操作系统中分配的,用于mspan结构体的内存大小。

go_memstats_buck_hash_sys_bytes

显示用于Profiling的哈希表占用的内存大小。

go_memstats_alloc_bytes_total

该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate()来获取内存消耗速度。

go_memstats_heap_sys_bytes

该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间

go_memstats_mspan_inuse_bytes

显示mspan结构体使用的内存大小。

go_memstats_alloc_bytes

该指标展示了在 上为对象分配了多少字节的内存。该值与go_memstats_heap_alloc_bytes相同。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。

go_info

该指标提供了Go版本信息。该指标数据来自runtime.Version()

go_memstats_last_gc_time_seconds

上一次GC完成时的时间戳。

go_memstats_heap_inuse_bytes

显示正在使用的Span占用字节数。

go_memstats_mcache_sys_bytes

显示从操作系统分配的,用于mcache结构体的内存大小。

go_memstats_lookups_total

是一个计数器值,用于计算有多少指针解引用。可以使用rate()函数来计算指针解引用速率。

go_memstats_mallocs_total

是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate()函数来计算堆对象分配速率。

go_gc_duration_seconds_sum

-

go_goroutines

通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。

go_memstats_heap_idle_bytes

显示空闲Span占用的内存字节数。

PV任务类型(Job)的任务名称和基础指标

任务名称(Job Name)

指标类型

指标名称

k8s-csi-cluster-pv

基础指标

cluster_pvc_detail_num_total

cluster_pv_detail_num_total

cluster_pv_status_num_total

cluster_scrape_collector_success

cluster_scrape_collector_duration_seconds

alibaba_cloud_storage_operator_build_info

cluster_pvc_status_num_total

scrape_duration_seconds

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_series_added

up

k8s-csi-node-pv

基础指标

cluster_scrape_collector_duration_seconds

cluster_scrape_collector_success

alibaba_cloud_csi_driver_build_info

up

scrape_series_added

scrape_samples_post_metric_relabeling

scrape_samples_scraped

scrape_duration_seconds

企业云监控

Prometheus实例 for 企业云监控支持的指标如下表所示。

指标分类

指标类型

指标名称

指标说明

ECS

自定义指标

cpu_util_lization

(ECS)CPU使用率

internet_in_rate

(ECS)公网流入流量平均速率

internet_out_rate

(ECS)公网流出流量平均速率

disk_read_bps

(ECS)所有磁盘读取BPS

disk_write_bps

(ECS)所有磁盘每秒读取次数

vpc_public_ip_internet_in_Rate

(ECS)IP维度公网流入平均速率

vpc_public_ip_internet_out_Rate

(ECS)IP维度公网流出带宽使用率

cpu_total

(Agent)cpu.total

memory_totalspace

(Agent)memory.total.space

memory_usedutilization

(Agent)memory.used.utilization

diskusage_utilization

(Agent)disk.usage.utilization_device

RDS

自定义指标

cpu_usage_average

CPU使用率

disk_usage

磁盘使用率

iops_usage

IOPS使用率

connection_usage

连接数使用率

data_delay

只读实例延迟

memory_usage

内存使用率

mysql_network_in_new

MySQL网络流入带宽

mysql_network_out_new

MySQL网络流出带宽

mysql_active_sessions

MySQL_ActiveSessions

sqlserver_network_in_new

SQLServer网络流入带宽

sqlserver_network_out_new

SQLServer网络流出带宽

NAT

自定义指标

snat_connection

SNAT连接数

snat_connection_drop_limit

历史累积最大限制丢弃连接数

snat_connection_drop_rate_limit

历史累积新建限制丢弃连接数

net_rx_rate

流入带宽

net_tx_rate

流出带宽

net_rx_pkgs

流入包速率

net_tx_pkgs

流出包速率

RocketMQ

自定义指标

consumer_lag_gid

消息堆积

receive_message_count_gid

Consumer(GroupId) 每分钟接收消息数量

send_message_count_gid

Producer(GroupId) 每分钟发送消息的数量

consumer_lag_topic

消息堆积(GroupID&Topic)

receive_message_count_topic

Consumer(GroupId&Topic) 每分钟接收消息数量

send_message_count_topic

Producer(GroupId&Topic) 每分钟发送消息数量

receive_message_count

每分钟接收消息数量

send_message_count

每分钟发送消息数量

SLB

自定义指标

healthy_server_count

后端健康ECS实例个数

unhealthy_server_count

后端异常ECS实例个数

packet_tx

每秒流入数据包数

packet_rx

每秒流出数据包数

traffic_rx_new

流入带宽

traffic_tx_new

流出带宽

active_connection

TCP活跃连接数

inactive_connection

端口非活跃连接数

new_connection

TCP新建连接数

max_connection

端口并发连接数

instance_active_connection

实例活跃连接数

instance_new_connection

实例每秒新建连接数

instance_max_connection

实例每秒最大并发连接数

instance_drop_connection

实例每秒丢失连接数

instance_traffic_rx

实例每秒入bit数

instance_traffic_tx

实例每秒出bit数

E-MapReduce(EMR)

自定义指标

active_applications

active状态的作业个数

active_users

active的用户数

aggregate_containers_allocated

总共分配的container个数

aggregate_containers_released

总共释放的container个数

allocated_containers

分配的container个数

apps_completed

已完成的作业数

apps_failed

失败的作业数

apps_killed

被杀死的作业数

apps_pending

等待的作业数

apps_running

运行中的作业数

apps_submitted

提交的作业数

available_mb

当前队列当前可用的内存大小

available_vcores

当前队列可用的VCore个数

pending_containers

等待的container个数

reserved_containers

预留的container个数

EIP

自定义指标

net_rx_rate

流入带宽

net_tx_rate

流出带宽

net_rx_pkgs_rate

流入包速率

net_tx_pkgs_rate

流出包速率

out_ratelimit_drop_speed

限速丢包速率

OSS

自定义指标

availability

可用性

request_valid_rate

有效请求率

success_rate

成功请求占比

network_error_rate

网络错误请求占比

total_request_count

总请求数

valid_count

有效请求数

internet_send

公网流出流量

internet_recv

公网流入流量

intranet_send

内网流出流量

intranet_recv

内网流入流量

success_count

成功请求总数

network_error_count

网络错误请求总数

client_timeout_count

客户端超时错误请求总数

Elasticsearch(ES)

自定义指标

node_cpu_utilization

Elasticsearch实例节点CPU使用率

node_heap_memory_utilization

Elasticsearch实例节点HeapMemory使用率

node_stats_exception_log_count

Exception次数

node_stats_full_gc_collection_count

FullGc次数

node_disk_utilization

Elasticsearch实例节点磁盘使用率

node_load_1m

节点Load_1m

cluster_query_qps

集群查询QPS

cluster_index_qps

ClusterIndexQPS

Logstash

自定义指标

cpu_percent

Logstash实例节点CPU使用率

node_heap_memory

节点内存使用量

node_disk_usage

Logstash实例节点磁盘使用率

DRDS

自定义指标

cpu_utilization

CPU使用率

connection_count

连接数

logic_qps

逻辑QPS

logic_rt

逻辑RT

memory_utilization

内存利用率

network_input_traffic

网络输入带宽

network_output_traffic

网络输出带宽

physics_qps

物理QPS

physics_rt

物理RT

thread_count

活跃线程数

com_insert_select

私有RDS_MySQL每秒InsertSelect量

com_replace

私有RDS_MySQL每秒Replace量

com_replace_select

私有RDS_MySQL每秒ReplaceSelect量

com_select

私有RDS_MySQL每秒Select量

com_update

私有RDS_MySQL每秒Update量

conn_usage

私有RDS_MySQL连接数利用率

cpu_usage

私有RDS_MySQL CPU使用率

disk_usage

私有RDS_MySQL磁盘使用率

ibuf_dirty_ratio

私有RDS_MySQL_BP脏页百分率

ibuf_pool_reads

私有RDS_MySQL每秒物理读次数

ibuf_read_hit

私有RDS_MySQL_BP读命中率

ibuf_request_r

私有RDS_MySQL每秒逻辑读次数

ibuf_request_w

私有RDS_MySQL每秒逻辑写次数

ibuf_use_ratio

私有RDS_MySQL_BP利用率

inno_data_read

私有RDS_MySQL_InnoDB每秒读取数据量

inno_data_written

私有RDS_MySQL_InnoDB每秒写入数据量

inno_row_delete

私有RDS_MySQL_InnoDB每秒删除行数

inno_row_insert

私有RDS_MySQL_InnoDB每秒插入行数

inno_row_readed

私有RDS_MySQL_InnoDB每秒读取行数

inno_row_update

私有RDS_MySQL_InnoDB每秒更新行数

innodb_log_write_requests

私有RDS_MySQL_InnoDB每秒日志写请求次数

innodb_log_writes

私有RDS_MySQL_InnoDB每秒日志物理写次数

innodb_os_log_fsyncs

私有RDS_MySQL_InnoDB每秒日志fsync量

input_traffic_ps

私有RDS_MySQL网络流入带宽

iops_usage

私有RDS_MySQL IOPS利用率

mem_usage

私有RDS_MySQL内存利用率

output_traffic_ps

私有RDS_MySQL网络流出带宽

qps

私有RDS_MySQL每秒查询量

slave_lag

私有RDS_MySQL只读实例延迟

slow_queries

私有RDS_MySQL每秒慢查询量

tb_tmp_disk

私有RDS_MySQL每秒创建临时表数量

Kafka

自定义指标

instance_disk_capacity

实例磁盘使用率

instance_message_input

实例消息生产量

instance_message_output

实例消息消费量

topic_message_input

Topic消息生产量

topic_message_output

Topic消息消费量

MongoDB

自定义指标

cpu_utilization

CPU使用率

memory_utilization

内存使用百分比

disk_utilization

磁盘使用率

iops_utilization

IOPS使用率

qps

每秒请求数

connect_amount

连接数使用量

instance_disk_amount

实例占用磁盘空间量

data_disk_amount

数据占用磁盘空间量

log_disk_amount

日志占用磁盘空间量

intranet_in

内网网络入流量

intranet_out

内网网络出流量

number_requests

请求数

op_insert

Insert操作次数

op_query

Query操作次数

op_update

Update操作次数

op_delete

Delete操作次数

op_getmore

Getmore操作次数

op_command

Command操作次数

PolarDB

自定义指标

active_connections

活跃连接数

blks_read_delta

数据块读取数

cluster_active_sessions

活跃连接数

cluster_connection_utilization

连接数使用率

cluster_cpu_utilization

CPU使用率

cluster_data_io

每秒存储引擎IO吞吐量

cluster_data_iops

每秒存储引擎IO次数

cluster_mem_hit_ratio

内存命中率

cluster_memory_utilization

内存使用率

cluster_qps

每秒查询数量

cluster_slow_queries_ps

每秒慢查询数量

cluster_tps

每秒事务数

conn_usage

连接使用率

cpu_total

CPU使用率

db_age

数据库最大年龄

instance_connection_utilization

实例连接数使用率

instance_cpu_utilization

实例CPU使用率

instance_input_bandwidth

实例输入带宽

instance_memory_utilization

实例内存使用率

instance_output_bandwidth

实例输出带宽

mem_usage

内存利用率

pls_data_size

pg数据盘大小

pls_iops

pg IOPS

pls_iops_read

pg读IOPS

pls_iops_write

pg写IOPS

pls_pg_wal_dir_size

pg WAL日志大小

pls_throughput

pg IO吞吐

pls_throughput_read

pg读IO吞吐

pls_throughput_write

pg写IO吞吐

swell_time

pg膨胀点

tps

pg TPS

cluster_iops

每秒IO次数

Redis

自定义指标

intranet_in_ratio

写入带宽使用率

intranet_out_ratio

读取带宽使用率

failed_count

操作失败数

cpu_usage

CPU使用率

used_memory

内存使用量

used_connection

已用连接数

used_qps

已用QPS数量

云服务自监控

Prometheus for 云服务自监控支持的指标如下表所示。

消息队列RocketMQ

指标分类

指标类型

指标名称

指标说明

生产者

自定义指标

rocketmq_producer_requests

发送相关API调用次数

rocketmq_producer_messages

发送消息量

rocketmq_producer_message_size_bytes

发送消息的总大小

rocketmq_producer_send_success_rate

发送消息成功率

rocketmq_producer_failure_api_calls

发送API调用失败次数

rocketmq_producer_send_rt_milliseconds_avg

发送消息耗时平均值

rocketmq_producer_send_rt_milliseconds_min

发送消息耗时最小值

rocketmq_producer_send_rt_milliseconds_max

发送消息耗时最大值

rocketmq_producer_send_rt_milliseconds_p95

发送消息耗时P95值

rocketmq_producer_send_rt_milliseconds_p99

发送消息耗时P99值

消费者

自定义指标

rocketmq_consumer_requests

消费消息相关API调用次数

rocketmq_consumer_send_back_requests

消费者消费失败回发接口调用次数

rocketmq_consumer_send_back_messages

消费者消费失败回发的消息

rocketmq_consumer_messages

消费消息量

rocketmq_consumer_message_size_bytes

消费消息量大小(一分钟累积量)

rocketmq_consumer_ready_and_inflight_messages

消息消费滞后量(包括已就绪消息量和处理中消息量)

rocketmq_consumer_ready_messages

已就绪消息量

rocketmq_consumer_inflight_messages

处理中消息量

rocketmq_consumer_queue_time_milliseconds

消息排队时间

rocketmq_consumer_message_await_time_milliseconds_avg

消息在消费者客户端等待处理资源耗时平均值

rocketmq_consumer_message_await_time_milliseconds_min

消息在消费者客户端等待处理资源耗时最小值

rocketmq_consumer_message_await_time_milliseconds_max

消息在消费者客户端等待处理资源耗时最大值

rocketmq_consumer_message_await_time_milliseconds_p95

消息在消费者客户端等待处理资源耗时P95值

rocketmq_consumer_message_await_time_milliseconds_p99

消息在消费者客户端等待处理资源耗时P99值

rocketmq_consumer_message_process_time_milliseconds_avg

消费者处理消息耗时平均值

rocketmq_consumer_message_process_time_milliseconds_min

消费者处理消息耗时最小值

rocketmq_consumer_message_process_time_milliseconds_max

消费者处理消息耗时最大值

rocketmq_consumer_message_process_time_milliseconds_p95

消费者处理消息耗时P95值

rocketmq_consumer_message_process_time_milliseconds_p99

消费者处理消息耗时P99值

rocketmq_consumer_consume_success_rate

消费消息成功率

rocketmq_consumer_failure_api_calls

消费API调用失败次数

rocketmq_consumer_to_dlq_messages

进死信消息量

Overview

自定义指标

rabbitmq_instance_api_total

实例级别API调用次数,秒级别

rabbitmq_connections_opened_total

已打开的连接总数

rabbitmq_connections_closed_total

已关闭的连接总数

rabbitmq_channels_opened_total

打开的通道总数

rabbitmq_channels_closed_total

关闭的通道总数

rabbitmq_queues_declared_total

声明的队列总数

rabbitmq_queues_deleted_total

删除的队列总数

rabbitmq_exchange_declared_total

-

rabbitmq_exchange_deleted_total

-

rabbitmq_exchange_bind_total

-

rabbitmq_exchange_unbind_total

-

rabbitmq_queue_bind_total

-

rabbitmq_queue_unbind_total

-

rabbitmq_connections

当前打开的连接

rabbitmq_channels

目前开放的渠道

Connections

自定义指标

rabbitmq_connection_channels

连接上的通道

Exchange

自定义指标

rabbitmq_exchange_messages_published_in_total

流入消息量

rabbitmq_exchange_messages_published_out_total

流出消息量

Queues

自定义指标

rabbitmq_queue_messages_published_total

发布到队列的消息总数

rabbitmq_queue_messages_ready

准备好交付给消费者的消息量

rabbitmq_queue_messages_unacked

定时中的消息量

rabbitmq_queue_deliver_total

已传递给消费者但尚未确认的消息总数

rabbitmq_queue_get_total

-

rabbitmq_queue_ack_total

-

rabbitmq_queue_uack_total

-

rabbitmq_queue_recover_total

-

rabbitmq_queue_reject_total

-

rabbitmq_queue_consumers

队列中的消费者

MongoDB

指标类型

指标名称

指标说明

自定义指标

avg_rt

实例平均响应时间

bytes_in

实例的网络进口流量

bytes_out

实例的网络出口流量

bytes_read_into_cache

WiredTiger,显示读入Cache的数据量大小

bytes_written_from_cache

WiredTiger,显示从Cache写的磁盘大小

command

协议命令操作QPS数

conn_usage

连接数使用率,显示实例当前连接数与最大连接数的比值

connections_active

实例当前活跃连接数

cpu_usage

实例的CPU使用率

current_conn

实例当前连接总数

data_iops

数据盘的IOPS使用量

data_size

实例数据磁盘使用空间

delete

删除操作QPS数

disk_usage

磁盘使用率,显示实例总使用空间与最大可使用空间的比值

document_deleted_ps

实例删除的文档数量

document_inserted_ps

实例插入的文档数量

document_returned_ps

实例返回的文档数量

document_updated_ps

实例更新的文档数量。

getmore

读取操作QPS数

gl_ac_readers

实例当前使用全局读锁数量

gl_ac_writers

实例当前使用全局写锁数量

gl_cq_readers

全局读锁的等待队列长度

gl_cq_total

所有全局锁的等待队列长度

gl_cq_writers

全局写锁的等待队列长度

ins_size

实例磁盘总使用空间

insert

插入操作QPS数

iocheck_cost

IO延迟,当前IO的响应性能

iops_usage

IOPS使用率

job_cursors_closed

Cursors,显示因关闭会话关闭的Cursor数量

log_iops

日志盘的IOPS使用量

log_size

实例日志磁盘使用空间

maximum_bytes_configured

WiredTiger,显示配置最大可用的磁盘大小

mem_usage

内存使用率

moveChunk_donor_started_ps

moveChunk,当前节点作为moveChunk源的次数

moveChunk_recip_stared_ps

moveChunk,当前节点作为moveChunk目标的次数

noTimeout_open

Cursors,显示当前无超时时间的Cursor打开数量

operation_exactIDCount_ps

操作详情,显示需要通过广播方式获取匹配_id的信息请求数

operation_scanAndOrder_ps

操作详情,显示无法使用索引进行Sort的请求数

operation_writeConflicts_ps

操作详情,显示发生写冲突的次数

pinned_open

Cursors,显示当前有超时时间的Cursor打开数量

query

查询操作QPS数

queryExecutor_scannedObject_ps

查询扫描索引与文档数量,显示查询扫描文档的数量

queryExecutor_scanned_ps

查询扫描索引与文档数量,显示查询扫描索引的数量

read_concurrent_trans_available

WiredTiger请求队列,显示可用的读并发请求数

read_concurrent_trans_out

WiredTiger请求队列,显示读并发请求数

repl_lag

主备延迟,显示实例主备节点的数据同步延时信息

timed_out

Cursors,显示因超时关闭的Cursor数量

total_open

Cursors,显示当前Cursor打开数量

ttl_deletedDocuments_ps

TTL,显示因TTL索引而删除的文档数量

ttl_passes_ps

TTL,显示后台TTL线程进行删除的次数

update

更新操作QPS数

write_concurrent_trans_available

WiredTiger请求队列,显示可用的写并发数

write_concurrent_trans_out

WiredTiger请求队列,显示写并发请求数

wt_cache_dirty_usage

WiredTigerCache使用率,显示实例WiredTiger引擎脏Cache使用率

wt_cache_usage

WiredTigerCache使用率,显示实例WiredTiger引擎脏Cache使用率

Flink

Flink指标

指标

含义

详情

单位

指标类型

flink_jobmanager_job_numRestarts

作业错误恢复次数。

作业出错重启次数,不包含JM Failover次数。

次数

自定义指标

flink_taskmanager_job_task_operator_currentEmitEventTimeLag

业务延时。

延时较大时,表示作业可能在拉取数据或者处理数据时存在延时。

毫秒(ms)

自定义指标

flink_taskmanager_job_task_operator_currentFetchEventTimeLag

传输延时。

延时较大时,表示作业可能在拉取数据时存在延时。

毫秒(ms)

自定义指标

flink_taskmanager_job_task_numRecordsIn

所有Operator输入的记录总数。

如果某个算子的numRecordsIn值长时间未增长,可能是由于上游吞掉了数据,因此未成功传递数据。此时,您需要查看上游数据。

自定义指标

flink_taskmanager_job_task_numRecordsOut

输出记录总数。

如果某个算子的numRecordsOut的值长时间未增长,可能是由于作业代码逻辑错误,导致数据被吞掉,因此未成功传递数据。此时,您需要查看作业代码逻辑。

自定义指标

flink_taskmanager_job_task_operator_numBytesIn

输入字节总数。

查看上游吞吐的输入情况,帮助您观察作业流量表现。

Byte

自定义指标

flink_taskmanager_job_task_operator_numBytesOut

输出字节总数。

查看上游吞吐的输出情况,帮助您观察作业流量表现。

Byte

自定义指标

flink_taskmanager_job_task_operator_numRecordsIn

所有Operator输入的记录总数。

如果某个算子的numRecordsIn值长时间未增长,可能是由于上游吞掉了数据,因此未成功传递数据。此时,您需要查看上游数据。

自定义指标

flink_taskmanager_job_task_operator_numRecordsInPerSecond

整个数据流每秒输入的记录数。

适用于需要监控整个数据流的处理速度的场景。

例如,您可以使用numRecordsInPerSecond观察整个数据流的处理速度是否达到了预期水平,以及在不同的输入数据负载下性能的变化情况。

条/秒

自定义指标

flink_taskmanager_job_task_operator_numRecordsOut

输出记录总数。

如果某个算子的numRecordsOut的值长时间未增长,可能是由于作业代码逻辑错误,导致数据被吞掉,因此未成功传递数据。此时,您需要查看作业代码逻辑。

自定义指标

flink_taskmanager_job_task_operator_numRecordsOutPerSecond

整个数据流每秒输出的记录数。

适用于需要监控整个数据流输出速度的场景,可以测量整个数据流每秒输出的记录数。

例如,您可以使用numRecordsOutPerSecond观察整个数据流的输出速度是否达到了预期水平,以及在不同的输出数据负载下性能的变化情况。

条/秒

自定义指标

flink_taskmanager_job_task_operator_source_numRecordsIn

仅Source Operator的输入记录。

查看上游数据输入情况。

自定义指标

flink_taskmanager_job_task_operator_sink_numRecordsOut

Sink端输出记录总数。

查看上游数据输出情况。

自定义指标

flink_taskmanager_job_task_numRecordsInPerSecond

整个数据流每秒输入的记录数。

适用于需要监控整个数据流的处理速度的场景。

例如,您可以使用numRecordsInPerSecond观察整个数据流的处理速度是否达到了预期水平,以及在不同的输入数据负载下性能的变化情况。

条/秒

自定义指标

flink_taskmanager_job_task_numRecordsOutPerSecond

整个数据流每秒输出的记录数。

适用于需要监控整个数据流输出速度的场景,可以测量整个数据流每秒输出的记录数。

例如,您可以使用numRecordsOutPerSecond观察整个数据流的输出速度是否达到了预期水平,以及在不同的输出数据负载下性能的变化情况。

条/秒

自定义指标

flink_taskmanager_job_task_operator_source_numRecordsInPerSecond

数据源Source端每秒输入的记录数。

适用于需要了解每个数据源的生成速度的场景,可以测量每个数据源每秒生成的记录数。

例如,在一个数据流中,不同的数据源可能会产生不同数量的记录,使用numRecordsInOfSourcePerSecond可以帮助您了解每个数据源的生成速度,并对数据流进行调整以达到更好的性能。

同时,该数据用于监控告警。如果该值为0,可能是由于上游吞掉了数据。您需要查看是否由于上游数据一直未被消费,因此导致输出阻塞问题。

条/秒

自定义指标

flink_taskmanager_job_task_operator_sink_numRecordsOutPerSecond

数据目的Sink端每秒输出的记录数。

适用于需要了解每个Sink的输出速度的场景,可以测量每个Sink端每秒输出的记录数。

例如,在一个数据流中,不同的Sink可能会输出不同数量的记录。使用numRecordsOutOfSinkPerSecond可以帮助您了解每个Sink的输出速度,并对数据流进行调整以达到更好的性能。

同时,该数据用于监控告警。如果该值为0,可能是作业代码逻辑错误,导致全部数据被过滤了。此时,您需要查看作业代码逻辑。

条/秒

自定义指标

flink_taskmanager_job_task_numBuffersInLocalPerSecond

每秒内本地消耗的数据缓冲区(buffer)数量。

如果该指标值很高,表示任务之间的本地通信(即在相同节点上的通信)很频繁。

条/秒

自定义指标

flink_taskmanager_job_task_numBuffersInRemotePerSecond

每秒内从远程任务管理器接收到的缓冲区的数量。

该指标反映了跨TaskManager通信的频率。

条/秒

自定义指标

flink_taskmanager_job_task_numBuffersOutPerSecond

每秒向其他任务发送的缓冲区的数量。

该指标可以帮助您了解任务的输出压力以及网络带宽的使用情况。

条/秒

自定义指标

flink_taskmanager_job_task_numBytesInLocalPerSecond

每秒输入字节(Local)总数。

查看上游流速的输入情况,帮助您观察作业流量表现。

Byte/秒

自定义指标

flink_taskmanager_job_task_operator_numBytesOutPerSecond

每秒输出字节总数。

查看上游吞吐输出情况,帮助您观察作业流量表现。

Byte/秒

自定义指标

flink_taskmanager_job_task_operator_pendingRecords

源端未读取数据的条数。

外部系统中尚未被Source拉取的数据条数。

自定义指标

flink_taskmanager_job_task_operator_sourceIdleTime

源端未处理数据的时间。

该指标反映Source是否有闲置。如果该指标值较大,表示数据在外部系统中的产生速率较低。

毫秒(ms)

自定义指标

flink_taskmanager_job_task_operator_numBytesInPerSecond

每秒输入字节总数。

无。

Byte/秒

自定义指标

flink_taskmanager_job_task_numBytesOutPerSecond

每秒输出字节总数。

无。

Byte/秒

自定义指标

flink_taskmanager_job_task_operator_currentSendTime

发送最新一条记录用时。

无。

毫秒 (ms)

自定义指标

flink_jobmanager_job_totalNumberOfCheckpoints

总Checkpoint数量。

无。

自定义指标

flink_jobmanager_job_numberOfFailedCheckpoints

失败的Checkpoints数量。

无。

自定义指标

flink_jobmanager_job_numberOfCompletedCheckpoints

已完成的Checkpoints数量。

无。

自定义指标

flink_jobmanager_job_numberOfInProgressCheckpoints

进行中的Checkpoints数量。

无。

自定义指标

flink_jobmanager_job_lastCheckpointDuration

最近一个Checkpoint的持续时间。

如果Checkpoint耗时过长或超时,可能是由于状态过大、临时网络原因、Barrier未对齐或数据存在反压。

毫秒(ms)

自定义指标

flink_jobmanager_job_lastCheckpointSize

最近一个Checkpoint的大小。

最近一次实际上传的Checkpoint大小,您可以在Checkpoint有瓶颈时帮助分析Checkpoint性能。

Byte

自定义指标

flink_taskmanager_job_task_operator_state_name_stateClearLatency

单次状态清理延迟最大值。

查看清理State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_valueStateGetLatency

单次Value State访问延迟的最大值。

查看算子访问Value State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_valueStateUpdateLatency

单次Value State Update延迟的最大值。

查看Value State Update性能。

纳秒(ns

自定义指标

flink_taskmanager_job_task_operator_state_name_aggregatingStateGetLatency

单次Aggregating State访问延迟的最大值。

查看算子访问Aggregating State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_aggregatingStateAddLatency

单次Aggregating State Add延迟的最大值。

查看Aggregating State Add性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_aggregatingStateMergeNamespacesLatency

单次Aggregating State Merge Namespace延迟的最大值。

查看Aggregating State Merge Namespace性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_reducingStateGetLatency

单次Reducing State访问延迟的最大值。

查看算子访问Reducing State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_reducingStateAddLatency

单次Reducing State Add延迟的最大值。

查看Reducing State Add性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_reducingStateMergeNamespacesLatency

单次Reducing State Merge Namespace延迟的最大值。

查看Reducing State Merge Namespace的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateGetLatency

单次Map State访问延迟的最大值。

查看算子访问Map State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStatePutLatency

单次Map State Put延迟的最大值。

查看Map State Put性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStatePutAllLatency

单次Map State Put All延迟的最大值。

查看Map State Put All性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateRemoveLatency

单次Map State Remove延迟的最大值。

查看Map State Remove性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateContainsLatency

单次Map State Contains延迟的最大值。

查看Map State Contains性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateEntriesInitLatency

单次Map State EntriesInit延迟的最大值。

查看Map State EntriesInit性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateKeysInitLatency

单次Map State KeysInit延迟的最大值。

查看Map State KeysInit性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateValuesInitLatency

单次Map State ValuesInit延迟的最大值。

查看Map State ValuesInit性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateIteratorInitLatency

单次Map State IteratorInit延迟的最大值。

查看Map State IteratorInit性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateIsEmptyLatency

单次Map State Empty延迟的最大值。

查看Map State Empty性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateIteratorHasNextLatency

单次Map State IteratorHasNext延迟的最大值。

查看Map State IteratorHasNext性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateIteratorNextLatency

单次Map State IteratorNext延迟的最大值。

查看Map State IteratorNext性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_mapStateIteratorRemoveLatency

单次Map State IteratorRemove延迟的最大值。

查看Map State IteratorRemove性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_listStateGetLatency

单次List State访问延迟的最大值。

查看算子访问List State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_listStateAddLatency

单次List State Add延迟的最大值。

查看List State Add性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_listStateAddAllLatency

单次List State Add All延迟的最大值。

查看List State Add All性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_listStateUpdateLatency

单次List State Update延迟的最大值。

查看List State Update性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_listStateMergeNamespacesLatency

单次List State Merge Namespace延迟的最大值。

查看List State Merge Namespace性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_sortedMapStateFirstEntryLatency

单次Sorted Map State第一个条目访问延迟的最大值。

查看算子访问Sorted Map State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_state_name_sortedMapStateLastEntryLatency

单次Sorted Map State最后一个条目访问延迟的最大值。

查看算子访问Sorted Map State的性能。

纳秒(ns)

自定义指标

flink_taskmanager_job_task_operator_geminiDB_total_size

状态数据的大小。

通过观测该指标,您可以:

  • 直接或提前定位可能出现的State瓶颈的节点。

  • 判断TTL是否生效。

Byte

自定义指标

flink_taskmanager_job_task_operator_geminiDB_total_filesize

状态数据文件的大小。

通过观测该指标,您可以:

  • 查看本地磁盘中State部分占用的大小,在占用较大时提前采取措施。

  • 判断是否因状态数据过大,导致本地磁盘空间不足。

Byte

自定义指标

flink_taskmanager_job_task_currentInputWatermark

每个Task最近收到一条水印的时间。

TM收到数据的延时情况。

自定义指标

flink_taskmanager_job_task_operator_watermarkLag

Watermark延迟。

Subtask级别的作业延迟情况。

毫秒(ms)

自定义指标

flink_jobmanager_Status_JVM_CPU_Load

单个JM CPU的负载。

如果该值长期大于100%,表示CPU很繁忙,负载很高。这可能会影响系统性能,导致系统卡顿或响应时间过长等。

基础指标

flink_jobmanager_Status_JVM_Memory_Heap_Used

JM的堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Memory_Heap_Committed

JM提交的堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Memory_Heap_Max

JM的最大堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Memory_NonHeap_Used

JM的非堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Memory_NonHeap_Committed

JM提交的非堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Memory_NonHeap_Max

JM的最大非堆内存。

无。

Byte

基础指标

flink_jobmanager_Status_JVM_Threads_Count

JM线程数。

JM线程数过多会导致占用过大的内存空间,从而降低作业稳定性。

基础指标

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Count

JM GC次数。

GC次数过多会导致占用过大的内存空间,从而影响作业性能。该指标可以帮助您进行作业诊断,排查作业级别的故障原因。

次数

基础指标

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

JM CMS垃圾回收器的回收次数。

无。

次数

基础指标

flink_jobmanager_Status_JVM_GarbageCollector_ParNew_Time

每次JM GC时间。

长时间的GC会导致占用过大的内存空间,从而影响作业的性能。该指标可以帮助您进行作业诊断,排查作业级别的故障原因。

毫秒(ms)

基础指标

flink_jobmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JM CMS垃圾回收器的回收耗时。

无。

毫秒(ms)

基础指标

flink_jobmanager_Status_JVM_ClassLoader_ClassesLoaded

JM所在的JVM在创建后,加载的类总数。

JM所在的JVM创建后,加载类的总数过大,会导致占用过大的内存空间,从而影响作业性能。

基础指标

flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded

JM所在的JVM在创建后,卸载的类总数。

JM所在的JVM创建后,卸载类的总数过大,会导致占用过大的内存空间,从而影响作业性能。

基础指标

flink_taskmanager_Status_JVM_CPU_Load

单个TM CPU的负载

指一段时间内CPU正在处理以及等待CPU处理的进程数之和,通常可以理解为CPU的繁忙程度。

CPU的繁忙程度和CPU核数有关。Flink中的CPU Load值为CPU Usage/CPU核数。flink_taskmanager_Status_JVM_CPU_Load大于CPU Load值时,说明CPU处理可能存在堵塞。

基础指标

flink_jobmanager_Status_ProcessTree_CPU_Usage

单个JM CPU的CPU使用率。

该指标值反映了Flink对CPU时间片的占用情况。

  • 1 Core CPU用满时,该值为100%。

  • 4 Core CPU用满时,该值为400%。

如果该值长期大于100%,说明CPU非常繁忙。

如果负载很高,但CPU使用率较低,可能是由于频繁的读写操作,导致不可中断睡眠状态的进程过多。

基础指标

flink_taskmanager_Status_ProcessTree_CPU_Usage

单个TM CPU的CPU使用率。

该指标值反映了Flink对CPU时间片的占用情况。

  • 1 Core CPU用满时,该值为100%。

  • 4 Core CPU用满时,该值为400%。

如果该值长期大于100%,说明CPU非常繁忙。

如果负载很高,但CPU使用率较低,可能是由于频繁的读写操作,导致不可中断睡眠状态的进程过多。

基础指标

flink_taskmanager_Status_JVM_Memory_Heap_Used

TM的堆内存。

无。

Byte

基础指标

flink_taskmanager_Status_JVM_Memory_Heap_Committed

TM堆内存的已提交量。

无。

Byte

基础指标

flink_taskmanager_Status_JVM_Memory_Heap_Max

TM最大堆内存。

无。

Byte

基础指标

flink_taskmanager_Status_JVM_Memory_NonHeap_Used

TM的非堆内存。

无。

Byte

基础指标

flink_taskmanager_Status_JVM_Memory_NonHeap_Committed

TM非堆内存的的已提交量。

无。

Byte

基础指标

flink_taskmanager_Status_JVM_Memory_NonHeap_Max

TM最大非堆内存。

无。

Byte

基础指标

flink_taskmanager_Status_ProcessTree_Memory_RSS

通过Linux获取整个进程的内存。

查看进程内存的变化。

Byte

基础指标

flink_taskmanager_Status_JVM_Threads_Count

TM线程数。

TM线程数过多会导致占用过多内存,从而降低作业稳定性。

基础指标

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Count

TM GC次数。

GC次数过多会导致占用过大的内存空间,从而影响作业性能。该指标可以帮助您进行作业诊断,排查作业Task级别的故障原因。

次数

基础指标

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Count

TM CMS垃圾回收器的回收次数。

无。

次数

基础指标

flink_taskmanager_Status_JVM_GarbageCollector_ParNew_Time

每次TM GC时间。

长时间GC会导致占用过大的内存空间,从而影响作业性能。该指标帮助您进行作业诊断,排查作业级别的故障原因。

毫秒(ms)

基础指标

flink_taskmanager_Status_JVM_GarbageCollector_ConcurrentMarkSweep_Time

JM CMS垃圾回收器的回收耗时。

无。

毫秒(ms)

基础指标

flink_taskmanager_Status_JVM_ClassLoader_ClassesLoaded

TM所在的JVM在创建后,加载的类总数。

TM所在的JVM创建后,加载类的总数过大,会导致占用过大的内存空间,从而影响作业性能。

基础指标

flink_taskmanager_Status_JVM_ClassLoader_ClassesUnloaded

TM所在的JVM在创建后,卸载的类总数。

TM所在的JVM创建后,卸载类的总数过大,会导致占用过大的内存空间,从而影响作业性能。

基础指标

flink_jobmanager_job_uptime

作业运行时间。

无。

毫秒(ms)

自定义指标

flink_jobmanager_numRunningJobs

运行的作业数目。

无。

自定义指标

flink_jobmanager_taskSlotsAvailable

可用的Task Slot数目。

无。

自定义指标

flink_jobmanager_taskSlotsTotal

Task Slot的总数。

无。

自定义指标

flink_jobmanager_numRegisteredTaskManagers

注册的TM数目。

无。

自定义指标

flink_taskmanager_job_task_numBytesInRemotePerSecond

作业每秒从远程源读取的字节数。

无。

Byte/秒

自定义指标

flink_taskmanager_job_task_operator_numLateRecordsDropped

窗口延迟丢弃数。

无。

自定义指标

flink_taskmanager_job_task_operator_lateRecordsDroppedRate

窗口延迟比率。

无。

自定义指标

指标常用Label

Label

说明

vvpNamespace

项目空间名称。

deploymentName

部署作业名。

deploymentId

部署作业ID。

jobId

Job ID。

其他

若您需要查看ARMS应用监控的指标,请参考应用监控指标说明

  • 本页导读 (1)
文档反馈