可观测监控 Prometheus 版按照指标上报次数收费。指标分为两种类型:基础指标和自定义指标,非基础指标的即是自定义指标。其中,基础指标不收费,自定义指标于2020年01月06日开始收费。
容器集群
可观测监控 Prometheus 版支持的容器集群基础指标如下所示。
Prometheus状态信息的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
_arms-prom/kubelet/1 | 基础指标 | promhttp_metric_handler_requests_in_flight | - |
go_memstats_mallocs_total | 是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate() 函数来计算堆对象分配速率。 | ||
go_memstats_lookups_total | 是一个计数器值,用于计算有多少指针解引用。可以使用rate() 函数来计算指针解引用速率。 | ||
go_memstats_last_gc_time_seconds | 上一次GC完成时的时间戳。 | ||
go_memstats_heap_sys_bytes | 该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。 | ||
go_memstats_heap_released_bytes | 显示有多少空闲Span已归还操作系统。 | ||
go_memstats_heap_objects | 显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。 | ||
go_memstats_heap_inuse_bytes | 显示正在使用的Span占用字节数。 | ||
go_memstats_heap_idle_bytes | 显示空闲Span占用的内存字节数。 | ||
go_memstats_heap_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
go_memstats_gc_sys_bytes | 显示垃圾收集元数据占用内存大小。 | ||
go_memstats_gc_cpu_fraction | 显示自程序启动以来,GC所占用CPU时间的比例。 | ||
go_memstats_frees_total | 是一个计数器值,用于显示有多个堆对象被释放。可以使用rate() 函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total -go_memstats_frees_total 得到存活的堆对象数量。 | ||
go_memstats_buck_hash_sys_bytes | 显示用于Profiling的哈希表占用的内存大小。 | ||
go_memstats_alloc_bytes_total | 该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate() 来获取内存消耗速度。 | ||
go_memstats_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
scrape_duration_seconds | - | ||
go_info | 该指标提供了Go版本信息。该指标数据来自runtime.Version() 。 | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
scrape_samples_post_metric_relabeling | - | ||
go_gc_duration_seconds_sum | - | ||
go_gc_duration_seconds_count | - | ||
blackbox_exporter_config_last_reload_successful | - | ||
blackbox_exporter_config_last_reload_success_timestamp_seconds | - | ||
scrape_samples_scraped | - | ||
blackbox_exporter_build_info | - | ||
arms_prometheus_target_scrapes_sample_out_of_order_total | - | ||
arms_prometheus_target_scrapes_sample_out_of_bounds_total | - | ||
arms_prometheus_target_scrapes_sample_duplicate_timestamp_total | - | ||
scrape_series_added | - | ||
arms_prometheus_target_scrapes_exceeded_sample_limit_total | - | ||
arms_prometheus_target_scrapes_cache_flush_forced_total_arms-prom/kubelet/1 | - | ||
arms_prometheus_target_scrape_pools_total | - | ||
statsd_metric_mapper_cache_gets_total | - | ||
statsd_metric_mapper_cache_hits_total | - | ||
statsd_metric_mapper_cache_length | - | ||
arms_prometheus_target_scrape_pools_failed_total | - | ||
up | - | ||
arms_prometheus_target_scrape_pool_reloads_total | - | ||
arms_prometheus_target_scrape_pool_reloads_failed_total | - |
API Server任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
apiserver | 基础指标 | apiserver_request_duration_seconds_bucket(默认废弃) |
apiserver_admission_controller_admission_duration_seconds_bucket | ||
apiserver_request_total | ||
rest_client_requests_total | ||
apiserver_admission_webhook_admission_duration_seconds_bucket | ||
apiserver_current_inflight_requests | ||
up | ||
apiserver_admission_webhook_admission_duration_seconds_count | ||
scrape_samples_post_metric_relabeling | ||
scrape_samples_scraped | ||
scrape_series_added | ||
scrape_duration_seconds |
Ingress任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
arms-ack-ingress | 基础指标 | nginx_ingress_controller_request_duration_seconds_bucket | - |
nginx_ingress_controller_response_duration_seconds_bucket(默认废弃) | - | ||
nginx_ingress_controller_response_size_bucket(默认废弃) | - | ||
nginx_ingress_controller_request_size_bucket | - | ||
nginx_ingress_controller_bytes_sent_bucket | - | ||
go_gc_duration_seconds | 数据来自调用debug.ReadGCStats() ,调用该函数时,会将传入参数GCStats结构体的PauseQuantile 字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 | ||
nginx_ingress_controller_nginx_process_connections | - | ||
nginx_ingress_controller_request_duration_seconds_sum | - | ||
nginx_ingress_controller_request_duration_seconds_count(默认废弃) | - | ||
nginx_ingress_controller_bytes_sent_sum | - | ||
nginx_ingress_controller_request_size_sum | - | ||
nginx_ingress_controller_response_duration_seconds_count | - | ||
nginx_ingress_controller_response_duration_seconds_sum(默认废弃) | - | ||
nginx_ingress_controller_response_size_count(默认废弃) | - | ||
nginx_ingress_controller_bytes_sent_count | - | ||
nginx_ingress_controller_response_size_sum | - | ||
nginx_ingress_controller_request_size_count | - | ||
promhttp_metric_handler_requests_total | - | ||
nginx_ingress_controller_nginx_process_connections_total | - | ||
go_memstats_mcache_sys_bytes | 显示从操作系统分配的,用于mcache结构体的内存大小。 | ||
go_memstats_lookups_total | 是一个计数器值,用于计算有多少指针解引用。可以使用rate() 函数来计算指针解引用速率。 | ||
go_threads | 通过runtime.CreateThreadProfile() 调用获取,读取的是全局allm变量。 | ||
go_memstats_sys_bytes | 该指标用于衡量Go从系统中总共获取了多少字节的内存。 | ||
go_memstats_last_gc_time_seconds | 上一次GC完成时的时间戳。 | ||
go_memstats_heap_sys_bytes | 该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。 | ||
go_memstats_heap_objects | 显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。 | ||
go_memstats_heap_inuse_bytes | 显示正在使用的Span占用字节数。 | ||
go_memstats_heap_idle_bytes | 显示空闲Span占用的内存字节数。 | ||
go_memstats_heap_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
go_memstats_gc_sys_bytes | 显示垃圾收集元数据占用内存大小。 | ||
promhttp_metric_handler_requests_in_flight | - | ||
go_memstats_stack_sys_bytes | 显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。 | ||
go_memstats_stack_inuse_bytes | 显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。 | ||
go_memstats_gc_cpu_fraction | 显示自程序启动以来,GC所占用CPU时间的比例。 | ||
go_memstats_frees_total | 是一个计数器值,用于显示有多个堆对象被释放。可以使用rate() 函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total - go_memstats_frees_total 得到存活的堆对象数量。 | ||
go_memstats_buck_hash_sys_bytes | 显示用于Profiling的哈希表占用的内存大小。 | ||
go_memstats_alloc_bytes_total | 该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate() 来获取内存消耗速度。 | ||
go_memstats_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
nginx_ingress_controller_nginx_process_num_procs | - | ||
go_info | 该指标提供了Go版本信息。该指标数据来自runtime.Version() 。 | ||
go_memstats_mallocs_total | 是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate() 函数来计算堆对象分配速率。 | ||
go_memstats_other_sys_bytes | 显示用于其他运行时分配占用内存大小。 | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
scrape_samples_post_metric_relabeling | - | ||
scrape_samples_scraped | - | ||
process_virtual_memory_max_bytes | - | ||
process_virtual_memory_bytes | 即VSS(Virtual Set Size),指虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。 | ||
scrape_duration_seconds | - | ||
go_memstats_heap_released_bytes | 显示有多少空闲Span已归还操作系统。 | ||
go_gc_duration_seconds_sum | - | ||
go_memstats_next_gc_bytes | 显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes 小于此值。 | ||
go_gc_duration_seconds_count | - | ||
nginx_ingress_controller_config_hash | - | ||
nginx_ingress_controller_config_last_reload_successful | - | ||
nginx_ingress_controller_config_last_reload_successful_timestamp_seconds | - | ||
nginx_ingress_controller_ingress_upstream_latency_seconds_count | - | ||
nginx_ingress_controller_ingress_upstream_latency_seconds_sum | - | ||
process_start_time_seconds | 使用到start_time ,start_time 描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat 。最后将start_time 除以USER_HZ得到以秒为单位的值。 | ||
nginx_ingress_controller_nginx_process_cpu_seconds_total | - | ||
scrape_series_added | - | ||
nginx_ingress_controller_nginx_process_oldest_start_time_seconds | - | ||
nginx_ingress_controller_nginx_process_read_bytes_total | - | ||
nginx_ingress_controller_nginx_process_requests_total | - | ||
nginx_ingress_controller_nginx_process_resident_memory_bytes | - | ||
nginx_ingress_controller_nginx_process_virtual_memory_bytes | - | ||
nginx_ingress_controller_nginx_process_write_bytes_total | - | ||
nginx_ingress_controller_requests | - | ||
go_memstats_mcache_inuse_bytes | 显示mcache结构体使用的内存大小。 | ||
nginx_ingress_controller_success | - | ||
process_resident_memory_bytes | 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 | ||
process_open_fds | 通过计算/proc/PID/fd 目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。 | ||
process_max_fds | 读取/proc/{PID}/limits 文件中,Max Open Files 所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。 | ||
process_cpu_seconds_total | 该指标计算使用到utime (Go进程执行在用户态模式下的滴答数)和stime (Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 | ||
go_memstats_mspan_sys_bytes | 显示从操作系统中分配的,用于mspan结构体的内存大小。 | ||
up | - | ||
go_memstats_mspan_inuse_bytes | 显示mspan结构体使用的内存大小。 | ||
nginx_ingress_controller_ssl_expire_time_seconds | - | ||
nginx_ingress_controller_leader_election_status | - |
CoreDNS任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
arms-ack-coredns | 基础指标 | coredns_forward_request_duration_seconds_bucket | - |
coredns_dns_request_size_bytes_bucket | - | ||
coredns_dns_response_size_bytes_bucket | - | ||
coredns_kubernetes_dns_programming_duration_seconds_bucket | - | ||
coredns_dns_request_duration_seconds_bucket | - | ||
coredns_plugin_enabled | - | ||
coredns_health_request_duration_seconds_bucket | - | ||
go_gc_duration_seconds | 数据来自调用debug.ReadGCStats() ,调用该函数时,会将传入参数GCStats结构体的PauseQuantile 字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 | ||
coredns_forward_responses_total | - | ||
coredns_forward_request_duration_seconds_sum | - | ||
coredns_forward_request_duration_seconds_count | - | ||
coredns_dns_requests_total | - | ||
coredns_forward_conn_cache_misses_total | - | ||
coredns_dns_responses_total | - | ||
coredns_cache_entries | - | ||
coredns_cache_hits_total | - | ||
coredns_forward_conn_cache_hits_total | - | ||
coredns_forward_requests_total | - | ||
coredns_dns_request_size_bytes_sum | - | ||
coredns_dns_response_size_bytes_count | - | ||
coredns_dns_response_size_bytes_sum | - | ||
coredns_dns_request_size_bytes_count | - | ||
scrape_duration_seconds | - | ||
scrape_samples_scraped | - | ||
scrape_series_added | - | ||
up | - | ||
scrape_samples_post_metric_relabeling | - | ||
go_memstats_lookups_total | 是一个计数器值,用于计算有多少指针解引用。可以使用rate() 函数来计算指针解引用速率。 | ||
go_memstats_last_gc_time_seconds | 上一次GC完成时的时间戳。 | ||
go_memstats_heap_sys_bytes | 该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。 | ||
coredns_build_info | - | ||
go_memstats_heap_released_bytes | 显示有多少空闲Span已归还操作系统。 | ||
go_memstats_heap_objects | 显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。 | ||
go_memstats_heap_inuse_bytes | 显示正在使用的Span占用字节数。 | ||
go_memstats_heap_idle_bytes | 显示空闲Span占用的内存字节数。 | ||
go_memstats_heap_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
go_memstats_gc_sys_bytes | 显示垃圾收集元数据占用内存大小。 | ||
go_memstats_sys_bytes | 该指标用于衡量Go从系统中总共获取了多少字节的内存。 | ||
go_memstats_stack_sys_bytes | 显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。 | ||
go_memstats_mallocs_total | 是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate() 函数来计算堆对象分配速率。 | ||
go_memstats_gc_cpu_fraction | 显示自程序启动以来,GC所占用CPU时间的比例。 | ||
go_memstats_stack_inuse_bytes | 显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。 | ||
go_memstats_frees_total | 是一个计数器值,用于显示有多个堆对象被释放。可以使用rate() 函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total - go_memstats_frees_total 得到存活的堆对象数量。 | ||
go_memstats_buck_hash_sys_bytes | 显示用于Profiling的哈希表占用的内存大小。 | ||
go_memstats_alloc_bytes_total | 该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate() 来获取内存消耗速度。 | ||
go_memstats_alloc_bytes | 该指标展示了在 堆 上为对象分配了多少字节的内存。该值与go_memstats_heap_alloc_bytes 相同。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
coredns_cache_misses_total | - | ||
go_memstats_other_sys_bytes | 显示用于其他运行时分配占用内存大小。 | ||
go_memstats_mcache_inuse_bytes | 显示mcache结构体使用的内存大小。 | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
process_virtual_memory_max_bytes | - | ||
process_virtual_memory_bytes | 即VSS(Virtual Set Size),指虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。 | ||
go_gc_duration_seconds_sum | - | ||
go_gc_duration_seconds_countarms-ack-coredns | - | ||
go_memstats_next_gc_bytes | 显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes 小于此值。 | ||
coredns_dns_request_duration_seconds_count | - | ||
coredns_reload_failed_total | - | ||
coredns_panics_total | - | ||
coredns_local_localhost_requests_total | - | ||
coredns_kubernetes_dns_programming_duration_seconds_sum | - | ||
coredns_kubernetes_dns_programming_duration_seconds_count | - | ||
coredns_dns_request_duration_seconds_sum | - | ||
coredns_hosts_reload_timestamp_seconds | - | ||
oredns_health_request_failures_total | - | ||
process_start_time_seconds | 使用到start_time ,start_time 描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat 。最后将start_time 除以USER_HZ得到以秒为单位的值。 | ||
process_resident_memory_bytes | 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 | ||
process_open_fds | 通过计算/proc/PID/fd 目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。 | ||
process_max_fds | 读取/proc/{PID}/limits 文件中,Max Open Files 所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。 | ||
process_cpu_seconds_total | 该指标计算使用到utime (Go进程执行在用户态模式下的滴答数)和stime (Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 | ||
coredns_health_request_duration_seconds_sum | - | ||
coredns_health_request_duration_seconds_count | - | ||
go_memstats_mspan_sys_bytes | 显示从操作系统中分配的,用于mspan结构体的内存大小。 | ||
coredns_forward_max_concurrent_rejects_total | - | ||
coredns_forward_healthcheck_broken_total | - | ||
go_memstats_mcache_sys_bytes | 显示从操作系统分配的,用于mcache结构体的内存大小。 | ||
go_memstats_mspan_inuse_bytes | 显示mspan结构体使用的内存大小。 | ||
go_threads | 通过runtime.CreateThreadProfile() 调用获取,读取的是全局allm变量。 | ||
go_info | 该指标提供了Go版本信息。该指标数据来自runtime.Version() 。 |
采集自Kube-State-Metrics任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
_kube-state-metrics | 基础指标 | kube_pod_container_status_waiting_reason |
kube_pod_status_phase | ||
kube_pod_container_status_last_terminated_reason | ||
kube_pod_container_status_terminated_reason | ||
kube_pod_status_ready | ||
kube_node_status_condition | ||
kube_pod_container_status_running | ||
kube_pod_container_status_restarts_total | ||
kube_pod_container_info | ||
kube_pod_container_status_waiting | ||
kube_pod_container_status_terminated | ||
kube_pod_labels | ||
kube_pod_owner | ||
kube_pod_info | ||
kube_pod_container_resource_limits | ||
kube_persistentvolume_status_phase | ||
kube_pod_container_resource_requests_memory_bytes | ||
kube_pod_container_resource_requests_cpu_cores | ||
kube_pod_container_resource_limits_memory_bytes | ||
kube_node_status_capacity | ||
kube_service_info | ||
kube_pod_container_resource_limits_cpu_cores | ||
kube_deployment_status_replicas_updated | ||
kube_deployment_status_replicas_unavailable | ||
kube_deployment_spec_replicas | ||
kube_deployment_created | ||
kube_deployment_metadata_generation | ||
kube_deployment_status_replicas | ||
kube_deployment_labels | ||
kube_deployment_status_observed_generation | ||
kube_deployment_status_replicas_available | ||
kube_deployment_spec_strategy_rollingupdate_max_unavailable | ||
kube_daemonset_status_desired_number_scheduled | ||
kube_daemonset_updated_number_scheduled | ||
kube_daemonset_status_number_ready | ||
kube_daemonset_status_number_misscheduled | ||
kube_daemonset_status_number_available | ||
kube_daemonset_status_current_number_scheduled | ||
kube_daemonset_created | ||
kube_node_status_allocatable_cpu_cores | ||
kube_node_status_capacity_memory_bytes | ||
kube_node_spec_unschedulable | ||
kube_node_status_allocatable_memory_bytes | ||
kube_node_labels | ||
kube_node_info | ||
kube_namespace_labels | ||
kube_node_status_capacity_cpu_cores | ||
kube_node_status_capacity_pods | ||
kube_node_status_allocatable_pods | ||
kube_node_spec_taint | ||
kube_statefulset_status_replicas | ||
kube_statefulset_replicas | ||
kube_statefulset_created | ||
up | ||
scrape_samples_scraped | ||
scrape_duration_seconds | ||
scrape_samples_post_metric_relabeling | ||
scrape_series_added |
Kubelet任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标含义 |
---|---|---|---|
_arms/kubelet/metric | 基础指标 | rest_client_request_duration_seconds_bucket | - |
apiserver_client_certificate_expiration_seconds_bucket | - | ||
kubelet_pod_worker_duration_seconds_bucket | - | ||
kubelet_pleg_relist_duration_seconds_bucket | - | ||
workqueue_queue_duration_seconds_bucket | - | ||
rest_client_requests_total | - | ||
go_gc_duration_seconds | 数据来自调用debug.ReadGCStats() ,调用该函数时,会将传入参数GCStats结构体的PauseQuantile 字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 | ||
process_cpu_seconds_total | 该指标计算使用到utime (Go进程执行在用户态模式下的滴答数)和stime (Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 | ||
process_resident_memory_bytes | 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 | ||
kubernetes_build_info | - | ||
kubelet_node_name | - | ||
kubelet_certificate_manager_client_ttl_seconds | - | ||
kubelet_certificate_manager_client_expiration_renew_errors | - | ||
scrape_duration_seconds | - | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
crape_samples_post_metric_relabeling | - | ||
scrape_samples_scraped | - | ||
scrape_series_added | - | ||
up | - | ||
apiserver_client_certificate_expiration_seconds_count | - | ||
workqueue_adds_total | - | ||
workqueue_depth | - |
Cadvisor任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
_arms/kubelet/cadvisor | 基础指标 | container_memory_failures_total(默认废弃) |
container_memory_rss | ||
container_spec_memory_limit_bytes | ||
container_memory_failcnt | ||
container_memory_cache | ||
container_memory_swap | ||
container_memory_usage_bytes | ||
container_memory_max_usage_bytes | ||
container_cpu_load_average_10s | ||
container_fs_reads_total(默认废弃) | ||
container_fs_writes_total(默认废弃) | ||
container_network_transmit_errors_total | ||
container_network_receive_bytes_total | ||
container_network_transmit_packets_total | ||
container_network_receive_errors_total | ||
container_network_receive_bytes_total | ||
container_network_receive_errors_total | ||
container_network_transmit_errors_total | ||
container_memory_working_set_bytes | ||
container_cpu_usage_seconds_total | ||
container_fs_reads_bytes_total | ||
container_fs_writes_bytes_total | ||
container_spec_cpu_quota | ||
container_cpu_cfs_periods_total | ||
container_cpu_cfs_throttled_periods_total | ||
container_cpu_cfs_throttled_seconds_total | ||
container_fs_inodes_free | ||
container_fs_io_time_seconds_total | ||
container_fs_io_time_weighted_seconds_total | ||
container_fs_limit_bytes | ||
container_tasks_state(默认废弃) | ||
container_fs_read_seconds_total(默认废弃) | ||
container_fs_write_seconds_total(默认废弃) | ||
container_fs_usage_bytes | ||
container_fs_inodes_total | ||
container_fs_io_current | ||
scrape_duration_seconds | ||
scrape_samples_scraped | ||
machine_cpu_cores | ||
machine_memory_bytes | ||
scrape_samples_post_metric_relabeling | ||
scrape_series_added | ||
up | ||
_arms-prom/kube-apiserver/cadvisor | 基础指标 | scrape_duration_seconds |
up | ||
scrape_samples_scraped | ||
scrape_samples_post_metric_relabeling | ||
scrape_series_added |
ACK Scheduler任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
ack-scheduler | 基础指标 | rest_client_request_duration_seconds_bucket |
scheduler_pod_scheduling_attempts_bucket | ||
rest_client_requests_total | ||
scheduler_pending_pods | ||
scheduler_scheduler_cache_size | ||
up |
etcd任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
etcd | 基础指标 | etcd_disk_backend_commit_duration_seconds_bucket |
up | ||
etcd_server_has_leader | ||
etcd_debugging_mvcc_keys_total | ||
etcd_debugging_mvcc_db_total_size_in_bytes | ||
etcd_server_leader_changes_seen_total |
Node任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
node-exporter | 基础指标 | node_filesystem_size_bytes | - |
node_filesystem_readonly | - | ||
node_filesystem_free_bytes | - | ||
node_filesystem_avail_bytes | - | ||
node_cpu_seconds_total | - | ||
node_network_receive_bytes_total | - | ||
node_network_receive_errs_total | - | ||
node_network_transmit_bytes_total | - | ||
node_network_receive_packets_total | - | ||
node_network_transmit_drop_total | - | ||
node_network_transmit_errs_total | - | ||
node_network_up | - | ||
node_network_transmit_packets_total | - | ||
node_network_receive_drop_total | - | ||
go_gc_duration_seconds | 数据来自调用debug.ReadGCStats() ,调用该函数时,会将传入参数GCStats结构体的PauseQuantile 字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 | ||
node_load5 | - | ||
node_filefd_allocated | - | ||
node_exporter_build_info | - | ||
node_disk_written_bytes_total | - | ||
node_disk_writes_completed_total | - | ||
node_disk_write_time_seconds_total | - | ||
node_nf_conntrack_entries | - | ||
node_nf_conntrack_entries_limit | - | ||
node_processes_max_processes | - | ||
node_processes_pids | - | ||
node_sockstat_TCP_alloc | - | ||
node_sockstat_TCP_inuse | - | ||
node_sockstat_TCP_tw | - | ||
node_timex_offset_seconds | - | ||
node_timex_sync_status | - | ||
node_uname_info | - | ||
node_vmstat_pgfault | - | ||
node_vmstat_pgmajfault | - | ||
node_vmstat_pgpgin | - | ||
node_vmstat_pgpgout | - | ||
node_disk_reads_completed_total | - | ||
node_disk_read_time_seconds_total | - | ||
process_cpu_seconds_total | 该指标计算使用到utime (Go进程执行在用户态模式下的滴答数)和stime (Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 | ||
node_disk_read_bytes_total | - | ||
node_disk_io_time_weighted_seconds_total | - | ||
node_disk_io_time_seconds_total | - | ||
node_disk_io_now | - | ||
node_context_switches_total | - | ||
node_boot_time_seconds | - | ||
process_resident_memory_bytes | 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 | ||
node_intr_total | - | ||
node_load1 | - | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
scrape_duration_seconds | - | ||
node_load15 | - | ||
scrape_samples_post_metric_relabeling | - | ||
node_netstat_Tcp_PassiveOpens | - | ||
scrape_samples_scraped | - | ||
node_netstat_Tcp_CurrEstab | - | ||
scrape_series_added | - | ||
node_netstat_Tcp_ActiveOpens | - | ||
node_memory_MemTotal_bytes | - | ||
node_memory_MemFree_bytes | - | ||
node_memory_MemAvailable_bytes | - | ||
node_memory_Cached_bytes | - | ||
up | - | ||
node_memory_Buffers_bytes | - |
GPU任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
gpu-exporter | 基础指标 | go_gc_duration_seconds | 数据来自调用debug.ReadGCStats() ,调用该函数时,会将传入参数GCStats结构体的PauseQuantile 字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 |
promhttp_metric_handler_requests_total | - | ||
scrape_series_added | - | ||
up | - | ||
scrape_duration_seconds | - | ||
scrape_samples_scraped | - | ||
scrape_samples_post_metric_relabeling | - | ||
go_memstats_mcache_inuse_bytes | 显示mcache结构体使用的内存大小。 | ||
process_virtual_memory_max_bytes | - | ||
process_virtual_memory_bytes | 即VSS(Virtual Set Size),指的虚拟内存集,是全部分配的内存,包括分配但未使用的内存、共享内存、换出的内存。 | ||
process_start_time_seconds | 使用到start_time ,start_time 描述了进程启动时的时间,单位是jiffies,数据来自/proc/stat 。最后将start_time 除以USER_HZ得到以秒为单位的值。 | ||
go_memstats_next_gc_bytes | 显示下个GC循环时候,堆占用内存大小。GC的目标是保证go_memstats_heap_alloc_bytes 小于此值。 | ||
go_memstats_heap_objects | 显示有多少对象是堆上在分配的,会随着GC和新对象的分配而改变。 | ||
process_resident_memory_bytes | 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 | ||
process_open_fds | 通过计算/proc/PID/fd 目录下的文件总数得来。显示了Go进程当前打开的常规文件、套接字、伪终端总数。 | ||
process_max_fds | 读取/proc/{PID}/limits 文件中,Max Open Files 所在行的值获得,该值是软限制(Soft Limit),软限制是内核为相应资源强制执行的值,而硬限制(Hard Limit)充当软限制的上限。 | ||
go_memstats_other_sys_bytes | 显示用于其他运行时分配占用内存大小。 | ||
go_gc_duration_seconds_count | - | ||
go_memstats_heap_alloc_bytes | 该指标展示了在堆上为对象分配了多少字节的内存。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
process_cpu_seconds_total | 该指标计算使用到utime (Go进程执行在用户态模式下的滴答数)和stime (Go进程执行在内核态时候的滴答数,例如系统调用时),他们的单位jiffies,jiffy 描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 | ||
nvidia_gpu_temperature_celsius(默认废弃) | - | ||
go_memstats_stack_inuse_bytes | 显示栈内存Span上已使用的内存大小,该Span上面至少分配了一个栈对象。 | ||
nvidia_gpu_power_usage_milliwatts(默认废弃) | - | ||
nvidia_gpu_num_devices(默认废弃) | - | ||
nvidia_gpu_memory_used_bytes(默认废弃) | - | ||
nvidia_gpu_memory_total_bytes(默认废弃) | - | ||
go_memstats_stack_sys_bytes | 显示从操作系统中获得多少字节的栈内存。是go_memstats_stack_inuse_bytes 加上操作系统线程栈得到。 | ||
nvidia_gpu_memory_allocated_bytes(默认废弃) | - | ||
nvidia_gpu_duty_cycle(默认废弃) | - | ||
nvidia_gpu_allocated_num_devices(默认废弃) | - | ||
promhttp_metric_handler_requests_in_flight | - | ||
go_memstats_sys_bytes | 该指标用于衡量Go从系统中总共获取了多少字节的内存。 | ||
go_memstats_gc_sys_bytes | 显示垃圾收集元数据占用内存大小。 | ||
go_memstats_gc_cpu_fraction | 显示自程序启动以来,GC所占用CPU时间的比例。 | ||
go_memstats_heap_released_bytes | 显示有多少空闲Span已归还操作系统。 | ||
go_memstats_frees_total | 是一个计数器值,用于显示有多个堆对象被释放。可以使用rate() 函数计算堆对象释放速率。同时可以通过go_memstats_mallocs_total -go_memstats_frees_total 得到存活的堆对象数量。 | ||
go_threads | 通过runtime.CreateThreadProfile() 调用获取,读取的是全局allm变量。 | ||
go_memstats_mspan_sys_bytes | 显示从操作系统中分配的,用于mspan结构体的内存大小。 | ||
go_memstats_buck_hash_sys_bytes | 显示用于Profiling的哈希表占用的内存大小。 | ||
go_memstats_alloc_bytes_total | 该指标随着对象在堆中分配而增加,但在释放对象时并不会减少。类似Prometheus的计数器类型,对该指标可以使用rate() 来获取内存消耗速度。 | ||
go_memstats_heap_sys_bytes | 该指标显示从操作系统中为堆分配的内存字节数。它包括已保留但尚未使用的虚拟地址空间。 | ||
go_memstats_mspan_inuse_bytes | 显示mspan结构体使用的内存大小。 | ||
go_memstats_alloc_bytes | 该指标展示了在 堆 上为对象分配了多少字节的内存。该值与go_memstats_heap_alloc_bytes 相同。该指标包括所有可达(reachable)堆对象和不可达(unreachable)对象(GC尚未释放的)占用的内存大小。 | ||
go_info | 该指标提供了Go版本信息。该指标数据来自runtime.Version() 。 | ||
go_memstats_last_gc_time_seconds | 上一次GC完成时的时间戳。 | ||
go_memstats_heap_inuse_bytes | 显示正在使用的Span占用字节数。 | ||
go_memstats_mcache_sys_bytes | 显示从操作系统分配的,用于mcache结构体的内存大小。 | ||
go_memstats_lookups_total | 是一个计数器值,用于计算有多少指针解引用。可以使用rate() 函数来计算指针解引用速率。 | ||
go_memstats_mallocs_total | 是一个计数器值,用于显示有多少堆对象进行分配了。可以使用rate() 函数来计算堆对象分配速率。 | ||
go_gc_duration_seconds_sum | - | ||
go_goroutines | 通过runtime.NumGoroutine() 调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 | ||
go_memstats_heap_idle_bytes | 显示空闲Span占用的内存字节数。 |
PV任务类型(Job)的任务名称和基础指标
任务名称(Job Name) | 指标类型 | 指标名称 |
---|---|---|
k8s-csi-cluster-pv | 基础指标 | cluster_pvc_detail_num_total |
cluster_pv_detail_num_total | ||
cluster_pv_status_num_total | ||
cluster_scrape_collector_success | ||
cluster_scrape_collector_duration_seconds | ||
alibaba_cloud_storage_operator_build_info | ||
cluster_pvc_status_num_total | ||
scrape_duration_seconds | ||
scrape_samples_post_metric_relabeling | ||
scrape_samples_scraped | ||
scrape_series_added | ||
up | ||
k8s-csi-node-pv | 基础指标 | cluster_scrape_collector_duration_seconds |
cluster_scrape_collector_success | ||
alibaba_cloud_csi_driver_build_info | ||
up | ||
scrape_series_added | ||
scrape_samples_post_metric_relabeling | ||
scrape_samples_scraped | ||
scrape_duration_seconds |
企业云监控
Prometheus实例 for 企业云监控支持的指标如下表所示。
指标分类 | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
ECS | 自定义指标 | cpu_util_lization | (ECS)CPU使用率 |
internet_in_rate | (ECS)公网流入流量平均速率 | ||
internet_out_rate | (ECS)公网流出流量平均速率 | ||
disk_read_bps | (ECS)所有磁盘读取BPS | ||
disk_write_bps | (ECS)所有磁盘每秒读取次数 | ||
vpc_public_ip_internet_in_Rate | (ECS)IP维度公网流入平均速率 | ||
vpc_public_ip_internet_out_Rate | (ECS)IP维度公网流出带宽使用率 | ||
cpu_total | (Agent)cpu.total | ||
memory_totalspace | (Agent)memory.total.space | ||
memory_usedutilization | (Agent)memory.used.utilization | ||
diskusage_utilization | (Agent)disk.usage.utilization_device | ||
RDS | 自定义指标 | cpu_usage_average | CPU使用率 |
disk_usage | 磁盘使用率 | ||
iops_usage | IOPS使用率 | ||
connection_usage | 连接数使用率 | ||
data_delay | 只读实例延迟 | ||
memory_usage | 内存使用率 | ||
mysql_network_in_new | MySQL网络流入带宽 | ||
mysql_network_out_new | MySQL网络流出带宽 | ||
mysql_active_sessions | MySQL_ActiveSessions | ||
sqlserver_network_in_new | SQLServer网络流入带宽 | ||
sqlserver_network_out_new | SQLServer网络流出带宽 | ||
NAT | 自定义指标 | snat_connection | SNAT连接数 |
snat_connection_drop_limit | 历史累积最大限制丢弃连接数 | ||
snat_connection_drop_rate_limit | 历史累积新建限制丢弃连接数 | ||
net_rx_rate | 流入带宽 | ||
net_tx_rate | 流出带宽 | ||
net_rx_pkgs | 流入包速率 | ||
net_tx_pkgs | 流出包速率 | ||
RocketMQ | 自定义指标 | consumer_lag_gid | 消息堆积 |
receive_message_count_gid | Consumer(GroupId) 每分钟接收消息数量 | ||
send_message_count_gid | Producer(GroupId) 每分钟发送消息的数量 | ||
consumer_lag_topic | 消息堆积(GroupID&Topic) | ||
receive_message_count_topic | Consumer(GroupId&Topic) 每分钟接收消息数量 | ||
send_message_count_topic | Producer(GroupId&Topic) 每分钟发送消息数量 | ||
receive_message_count | 每分钟接收消息数量 | ||
send_message_count | 每分钟发送消息数量 | ||
SLB | 自定义指标 | healthy_server_count | 后端健康ECS实例个数 |
unhealthy_server_count | 后端异常ECS实例个数 | ||
packet_tx | 每秒流入数据包数 | ||
packet_rx | 每秒流出数据包数 | ||
traffic_rx_new | 流入带宽 | ||
traffic_tx_new | 流出带宽 | ||
active_connection | TCP活跃连接数 | ||
inactive_connection | 端口非活跃连接数 | ||
new_connection | TCP新建连接数 | ||
max_connection | 端口并发连接数 | ||
instance_active_connection | 实例活跃连接数 | ||
instance_new_connection | 实例每秒新建连接数 | ||
instance_max_connection | 实例每秒最大并发连接数 | ||
instance_drop_connection | 实例每秒丢失连接数 | ||
instance_traffic_rx | 实例每秒入bit数 | ||
instance_traffic_tx | 实例每秒出bit数 | ||
E-MapReduce(EMR) | 自定义指标 | active_applications | active状态的作业个数 |
active_users | active的用户数 | ||
aggregate_containers_allocated | 总共分配的container个数 | ||
aggregate_containers_released | 总共释放的container个数 | ||
allocated_containers | 分配的container个数 | ||
apps_completed | 已完成的作业数 | ||
apps_failed | 失败的作业数 | ||
apps_killed | 被杀死的作业数 | ||
apps_pending | 等待的作业数 | ||
apps_running | 运行中的作业数 | ||
apps_submitted | 提交的作业数 | ||
available_mb | 当前队列当前可用的内存大小 | ||
available_vcores | 当前队列可用的VCore个数 | ||
pending_containers | 等待的container个数 | ||
reserved_containers | 预留的container个数 | ||
EIP | 自定义指标 | net_rx_rate | 流入带宽 |
net_tx_rate | 流出带宽 | ||
net_rx_pkgs_rate | 流入包速率 | ||
net_tx_pkgs_rate | 流出包速率 | ||
out_ratelimit_drop_speed | 限速丢包速率 | ||
OSS | 自定义指标 | availability | 可用性 |
request_valid_rate | 有效请求率 | ||
success_rate | 成功请求占比 | ||
network_error_rate | 网络错误请求占比 | ||
total_request_count | 总请求数 | ||
valid_count | 有效请求数 | ||
internet_send | 公网流出流量 | ||
internet_recv | 公网流入流量 | ||
intranet_send | 内网流出流量 | ||
intranet_recv | 内网流入流量 | ||
success_count | 成功请求总数 | ||
network_error_count | 网络错误请求总数 | ||
client_timeout_count | 客户端超时错误请求总数 | ||
Elasticsearch(ES) | 自定义指标 | node_cpu_utilization | Elasticsearch实例节点CPU使用率 |
node_heap_memory_utilization | Elasticsearch实例节点HeapMemory使用率 | ||
node_stats_exception_log_count | Exception次数 | ||
node_stats_full_gc_collection_count | FullGc次数 | ||
node_disk_utilization | Elasticsearch实例节点磁盘使用率 | ||
node_load_1m | 节点Load_1m | ||
cluster_query_qps | 集群查询QPS | ||
cluster_index_qps | ClusterIndexQPS | ||
Logstash | 自定义指标 | cpu_percent | Logstash实例节点CPU使用率 |
node_heap_memory | 节点内存使用量 | ||
node_disk_usage | Logstash实例节点磁盘使用率 | ||
DRDS | 自定义指标 | cpu_utilization | CPU使用率 |
connection_count | 连接数 | ||
logic_qps | 逻辑QPS | ||
logic_rt | 逻辑RT | ||
memory_utilization | 内存利用率 | ||
network_input_traffic | 网络输入带宽 | ||
network_output_traffic | 网络输出带宽 | ||
physics_qps | 物理QPS | ||
physics_rt | 物理RT | ||
thread_count | 活跃线程数 | ||
com_insert_select | 私有RDS_MySQL每秒InsertSelect量 | ||
com_replace | 私有RDS_MySQL每秒Replace量 | ||
com_replace_select | 私有RDS_MySQL每秒ReplaceSelect量 | ||
com_select | 私有RDS_MySQL每秒Select量 | ||
com_update | 私有RDS_MySQL每秒Update量 | ||
conn_usage | 私有RDS_MySQL连接数利用率 | ||
cpu_usage | 私有RDS_MySQL CPU使用率 | ||
disk_usage | 私有RDS_MySQL磁盘使用率 | ||
ibuf_dirty_ratio | 私有RDS_MySQL_BP脏页百分率 | ||
ibuf_pool_reads | 私有RDS_MySQL每秒物理读次数 | ||
ibuf_read_hit | 私有RDS_MySQL_BP读命中率 | ||
ibuf_request_r | 私有RDS_MySQL每秒逻辑读次数 | ||
ibuf_request_w | 私有RDS_MySQL每秒逻辑写次数 | ||
ibuf_use_ratio | 私有RDS_MySQL_BP利用率 | ||
inno_data_read | 私有RDS_MySQL_InnoDB每秒读取数据量 | ||
inno_data_written | 私有RDS_MySQL_InnoDB每秒写入数据量 | ||
inno_row_delete | 私有RDS_MySQL_InnoDB每秒删除行数 | ||
inno_row_insert | 私有RDS_MySQL_InnoDB每秒插入行数 | ||
inno_row_readed | 私有RDS_MySQL_InnoDB每秒读取行数 | ||
inno_row_update | 私有RDS_MySQL_InnoDB每秒更新行数 | ||
innodb_log_write_requests | 私有RDS_MySQL_InnoDB每秒日志写请求次数 | ||
innodb_log_writes | 私有RDS_MySQL_InnoDB每秒日志物理写次数 | ||
innodb_os_log_fsyncs | 私有RDS_MySQL_InnoDB每秒日志fsync量 | ||
input_traffic_ps | 私有RDS_MySQL网络流入带宽 | ||
iops_usage | 私有RDS_MySQL IOPS利用率 | ||
mem_usage | 私有RDS_MySQL内存利用率 | ||
output_traffic_ps | 私有RDS_MySQL网络流出带宽 | ||
qps | 私有RDS_MySQL每秒查询量 | ||
slave_lag | 私有RDS_MySQL只读实例延迟 | ||
slow_queries | 私有RDS_MySQL每秒慢查询量 | ||
tb_tmp_disk | 私有RDS_MySQL每秒创建临时表数量 | ||
Kafka | 自定义指标 | instance_disk_capacity | 实例磁盘使用率 |
instance_message_input | 实例消息生产量 | ||
instance_message_output | 实例消息消费量 | ||
topic_message_input | Topic消息生产量 | ||
topic_message_output | Topic消息消费量 | ||
MongoDB | 自定义指标 | cpu_utilization | CPU使用率 |
memory_utilization | 内存使用百分比 | ||
disk_utilization | 磁盘使用率 | ||
iops_utilization | IOPS使用率 | ||
qps | 每秒请求数 | ||
connect_amount | 连接数使用量 | ||
instance_disk_amount | 实例占用磁盘空间量 | ||
data_disk_amount | 数据占用磁盘空间量 | ||
log_disk_amount | 日志占用磁盘空间量 | ||
intranet_in | 内网网络入流量 | ||
intranet_out | 内网网络出流量 | ||
number_requests | 请求数 | ||
op_insert | Insert操作次数 | ||
op_query | Query操作次数 | ||
op_update | Update操作次数 | ||
op_delete | Delete操作次数 | ||
op_getmore | Getmore操作次数 | ||
op_command | Command操作次数 | ||
PolarDB | 自定义指标 | active_connections | 活跃连接数 |
blks_read_delta | 数据块读取数 | ||
cluster_active_sessions | 活跃连接数 | ||
cluster_connection_utilization | 连接数使用率 | ||
cluster_cpu_utilization | CPU使用率 | ||
cluster_data_io | 每秒存储引擎IO吞吐量 | ||
cluster_data_iops | 每秒存储引擎IO次数 | ||
cluster_mem_hit_ratio | 内存命中率 | ||
cluster_memory_utilization | 内存使用率 | ||
cluster_qps | 每秒查询数量 | ||
cluster_slow_queries_ps | 每秒慢查询数量 | ||
cluster_tps | 每秒事务数 | ||
conn_usage | 连接使用率 | ||
cpu_total | CPU使用率 | ||
db_age | 数据库最大年龄 | ||
instance_connection_utilization | 实例连接数使用率 | ||
instance_cpu_utilization | 实例CPU使用率 | ||
instance_input_bandwidth | 实例输入带宽 | ||
instance_memory_utilization | 实例内存使用率 | ||
instance_output_bandwidth | 实例输出带宽 | ||
mem_usage | 内存利用率 | ||
pls_data_size | pg数据盘大小 | ||
pls_iops | pg IOPS | ||
pls_iops_read | pg读IOPS | ||
pls_iops_write | pg写IOPS | ||
pls_pg_wal_dir_size | pg WAL日志大小 | ||
pls_throughput | pg IO吞吐 | ||
pls_throughput_read | pg读IO吞吐 | ||
pls_throughput_write | pg写IO吞吐 | ||
swell_time | pg膨胀点 | ||
tps | pg TPS | ||
cluster_iops | 每秒IO次数 | ||
Redis | 自定义指标 | intranet_in_ratio | 写入带宽使用率 |
intranet_out_ratio | 读取带宽使用率 | ||
failed_count | 操作失败数 | ||
cpu_usage | CPU使用率 | ||
used_memory | 内存使用量 | ||
used_connection | 已用连接数 | ||
used_qps | 已用QPS数量 |
云服务自监控
Prometheus for 云服务自监控支持的指标如下表所示。
消息队列RocketMQ
指标分类 | 指标类型 | 指标名称 | 指标说明 |
---|---|---|---|
生产者 | 自定义指标 | rocketmq_producer_requests | 发送相关API调用次数 |
rocketmq_producer_messages | 发送消息量 | ||
rocketmq_producer_message_size_bytes | 发送消息的总大小 | ||
rocketmq_producer_send_success_rate | 发送消息成功率 | ||
rocketmq_producer_failure_api_calls | 发送API调用失败次数 | ||
rocketmq_producer_send_rt_milliseconds_avg | 发送消息耗时平均值 | ||
rocketmq_producer_send_rt_milliseconds_min | 发送消息耗时最小值 | ||
rocketmq_producer_send_rt_milliseconds_max | 发送消息耗时最大值 | ||
rocketmq_producer_send_rt_milliseconds_p95 | 发送消息耗时P95值 | ||
rocketmq_producer_send_rt_milliseconds_p99 | 发送消息耗时P99值 | ||
消费者 | 自定义指标 | rocketmq_consumer_requests | 消费消息相关API调用次数 |
rocketmq_consumer_send_back_requests | 消费者消费失败回发接口调用次数 | ||
rocketmq_consumer_send_back_messages | 消费者消费失败回发的消息 | ||
rocketmq_consumer_messages | 消费消息量 | ||
rocketmq_consumer_message_size_bytes | 消费消息量大小(一分钟累积量) | ||
rocketmq_consumer_ready_and_inflight_messages | 消息消费滞后量(包括已就绪消息量和处理中消息量) | ||
rocketmq_consumer_ready_messages | 已就绪消息量 | ||
rocketmq_consumer_inflight_messages | 处理中消息量 | ||
rocketmq_consumer_queue_time_milliseconds | 消息排队时间 | ||
rocketmq_consumer_message_await_time_milliseconds_avg | 消息在消费者客户端等待处理资源耗时平均值 | ||
rocketmq_consumer_message_await_time_milliseconds_min | 消息在消费者客户端等待处理资源耗时最小值 | ||
rocketmq_consumer_message_await_time_milliseconds_max | 消息在消费者客户端等待处理资源耗时最大值 | ||
rocketmq_consumer_message_await_time_milliseconds_p95 | 消息在消费者客户端等待处理资源耗时P95值 | ||
rocketmq_consumer_message_await_time_milliseconds_p99 | 消息在消费者客户端等待处理资源耗时P99值 | ||
rocketmq_consumer_message_process_time_milliseconds_avg | 消费者处理消息耗时平均值 | ||
rocketmq_consumer_message_process_time_milliseconds_min | 消费者处理消息耗时最小值 | ||
rocketmq_consumer_message_process_time_milliseconds_max | 消费者处理消息耗时最大值 | ||
rocketmq_consumer_message_process_time_milliseconds_p95 | 消费者处理消息耗时P95值 | ||
rocketmq_consumer_message_process_time_milliseconds_p99 | 消费者处理消息耗时P99值 | ||
rocketmq_consumer_consume_success_rate | 消费消息成功率 | ||
rocketmq_consumer_failure_api_calls | 消费API调用失败次数 | ||
rocketmq_consumer_to_dlq_messages | 进死信消息量 | ||
Overview | 自定义指标 | rabbitmq_instance_api_total | 实例级别API调用次数,秒级别 |
rabbitmq_connections_opened_total | 已打开的连接总数 | ||
rabbitmq_connections_closed_total | 已关闭的连接总数 | ||
rabbitmq_channels_opened_total | 打开的通道总数 | ||
rabbitmq_channels_closed_total | 关闭的通道总数 | ||
rabbitmq_queues_declared_total | 声明的队列总数 | ||
rabbitmq_queues_deleted_total | 删除的队列总数 | ||
rabbitmq_exchange_declared_total | - | ||
rabbitmq_exchange_deleted_total | - | ||
rabbitmq_exchange_bind_total | - | ||
rabbitmq_exchange_unbind_total | - | ||
rabbitmq_queue_bind_total | - | ||
rabbitmq_queue_unbind_total | - | ||
rabbitmq_connections | 当前打开的连接 | ||
rabbitmq_channels | 目前开放的渠道 | ||
Connections | 自定义指标 | rabbitmq_connection_channels | 连接上的通道 |
Exchange | 自定义指标 | rabbitmq_exchange_messages_published_in_total | 流入消息量 |
rabbitmq_exchange_messages_published_out_total | 流出消息量 | ||
Queues | 自定义指标 | rabbitmq_queue_messages_published_total | 发布到队列的消息总数 |
rabbitmq_queue_messages_ready | 准备好交付给消费者的消息量 | ||
rabbitmq_queue_messages_unacked | 定时中的消息量 | ||
rabbitmq_queue_deliver_total | 已传递给消费者但尚未确认的消息总数 | ||
rabbitmq_queue_get_total | - | ||
rabbitmq_queue_ack_total | - | ||
rabbitmq_queue_uack_total | - | ||
rabbitmq_queue_recover_total | - | ||
rabbitmq_queue_reject_total | - | ||
rabbitmq_queue_consumers | 队列中的消费者 |
MongoDB
指标类型 | 指标名称 | 指标说明 |
---|---|---|
自定义指标 | avg_rt | 实例平均响应时间 |
bytes_in | 实例的网络进口流量 | |
bytes_out | 实例的网络出口流量 | |
bytes_read_into_cache | WiredTiger,显示读入Cache的数据量大小 | |
bytes_written_from_cache | WiredTiger,显示从Cache写的磁盘大小 | |
command | 协议命令操作QPS数 | |
conn_usage | 连接数使用率,显示实例当前连接数与最大连接数的比值 | |
connections_active | 实例当前活跃连接数 | |
cpu_usage | 实例的CPU使用率 | |
current_conn | 实例当前连接总数 | |
data_iops | 数据盘的IOPS使用量 | |
data_size | 实例数据磁盘使用空间 | |
delete | 删除操作QPS数 | |
disk_usage | 磁盘使用率,显示实例总使用空间与最大可使用空间的比值 | |
document_deleted_ps | 实例删除的文档数量 | |
document_inserted_ps | 实例插入的文档数量 | |
document_returned_ps | 实例返回的文档数量 | |
document_updated_ps | 实例更新的文档数量。 | |
getmore | 读取操作QPS数 | |
gl_ac_readers | 实例当前使用全局读锁数量 | |
gl_ac_writers | 实例当前使用全局写锁数量 | |
gl_cq_readers | 全局读锁的等待队列长度 | |
gl_cq_total | 所有全局锁的等待队列长度 | |
gl_cq_writers | 全局写锁的等待队列长度 | |
ins_size | 实例磁盘总使用空间 | |
insert | 插入操作QPS数 | |
iocheck_cost | IO延迟,当前IO的响应性能 | |
iops_usage | IOPS使用率 | |
job_cursors_closed | Cursors,显示因关闭会话关闭的Cursor数量 | |
log_iops | 日志盘的IOPS使用量 | |
log_size | 实例日志磁盘使用空间 | |
maximum_bytes_configured | WiredTiger,显示配置最大可用的磁盘大小 | |
mem_usage | 内存使用率 | |
moveChunk_donor_started_ps | moveChunk,当前节点作为moveChunk源的次数 | |
moveChunk_recip_stared_ps | moveChunk,当前节点作为moveChunk目标的次数 | |
noTimeout_open | Cursors,显示当前无超时时间的Cursor打开数量 | |
operation_exactIDCount_ps | 操作详情,显示需要通过广播方式获取匹配_id的信息请求数 | |
operation_scanAndOrder_ps | 操作详情,显示无法使用索引进行Sort的请求数 | |
operation_writeConflicts_ps | 操作详情,显示发生写冲突的次数 | |
pinned_open | Cursors,显示当前有超时时间的Cursor打开数量 | |
query | 查询操作QPS数 | |
queryExecutor_scannedObject_ps | 查询扫描索引与文档数量,显示查询扫描文档的数量 | |
queryExecutor_scanned_ps | 查询扫描索引与文档数量,显示查询扫描索引的数量 | |
read_concurrent_trans_available | WiredTiger请求队列,显示可用的读并发请求数 | |
read_concurrent_trans_out | WiredTiger请求队列,显示读并发请求数 | |
repl_lag | 主备延迟,显示实例主备节点的数据同步延时信息 | |
timed_out | Cursors,显示因超时关闭的Cursor数量 | |
total_open | Cursors,显示当前Cursor打开数量 | |
ttl_deletedDocuments_ps | TTL,显示因TTL索引而删除的文档数量 | |
ttl_passes_ps | TTL,显示后台TTL线程进行删除的次数 | |
update | 更新操作QPS数 | |
write_concurrent_trans_available | WiredTiger请求队列,显示可用的写并发数 | |
write_concurrent_trans_out | WiredTiger请求队列,显示写并发请求数 | |
wt_cache_dirty_usage | WiredTigerCache使用率,显示实例WiredTiger引擎脏Cache使用率 | |
wt_cache_usage | WiredTigerCache使用率,显示实例WiredTiger引擎脏Cache使用率 |