自监控基础指标

本文介绍可观测监控 Prometheus 版支持的自监控基础指标。基础指标不收费。

指标

描述

aliyun_prometheus_agent_all_series_num

每个周期抓取的时间线总数

aliyun_prometheus_agent_all_targets_num

每个周期抓取的 Targets 总数

aliyun_prometheus_agent_blackbox_probe_total

执行 Blackbox Probe 动作总次数

aliyun_prometheus_agent_cluster_node_num

容器集群内的节点总数

aliyun_prometheus_agent_cpu_limit

探针 CPU 资源 Limit

aliyun_prometheus_agent_cpu_usage_rate

探针 CPU 资源利用率(百分数)

aliyun_prometheus_agent_dns_not_available_total

发送数据时出现的 DNS 不可用次数

aliyun_prometheus_agent_drop_metrics_exist

是否存在废弃指标

aliyun_prometheus_agent_heartbeat

探针心跳指标,每 15 秒自增1

aliyun_prometheus_agent_job_discovery_status

采集配置是否加载成功

aliyun_prometheus_agent_job_scrape_status

默认采集配置是否抓取成功

aliyun_prometheus_agent_local_storage_conflicts_total

探针内部队列是否发生阻塞

aliyun_prometheus_agent_master_send_targets_time

探针主节点分发采集任务耗时

aliyun_prometheus_agent_master_send_targets_total

探针主节点分发采集任务次数

aliyun_prometheus_agent_memory_usage_rate

探针内存资源利用率(百分数)

aliyun_prometheus_agent_memorybackpressure_total

探针发送失败导致背压次数

aliyun_prometheus_agent_memorylimit_alloc_mb

探针分配的内存大小

aliyun_prometheus_agent_memorylimit_limit_mb

探针分配的内存上限

aliyun_prometheus_agent_regis_fail_total

探针初始化资源失败次数

aliyun_prometheus_agent_relabel_error_num

探针 Relabel Config 错误次数

aliyun_prometheus_agent_remote_write_duration_ms

探针 Remote Write 写入耗时

aliyun_prometheus_agent_remote_write_failed_batch_total

探针 Remote Write 写入失败的数据包总数

aliyun_prometheus_agent_remote_write_failed_down_grade_total

探针 Remote Write 写入失败导致的写入降级次数

aliyun_prometheus_agent_remote_write_succeed_batch_total

探针 Remote Write 写入成功的数据包总数

aliyun_prometheus_agent_remote_write_succeed_bytes_total

探针 Remote Write 写入失败的数据字节总数

aliyun_prometheus_agent_replica_current_num

探针当前运行状态的预期副本数

aliyun_prometheus_agent_restart_by_oom_num

探针 OOM 次数

aliyun_prometheus_agent_scale_out_fail_count

探针扩容失败次数

aliyun_prometheus_agent_scale_out_failed

探针扩容是否发生失败

aliyun_prometheus_agent_scrape_base_delay_15

基础采集作业采集延迟是否超过 15 秒

aliyun_prometheus_agent_scrape_base_delay_60

基础采集作业采集延迟是否超过 60 秒

aliyun_prometheus_agent_scrape_base_error

基础采集作业采集是否发生失败

aliyun_prometheus_agent_scrape_custom_delay_15

自定义采集作业采集延迟是否超过 15 秒

aliyun_prometheus_agent_scrape_custom_delay_60

自定义采集作业采集延迟是否超过 60 秒

aliyun_prometheus_agent_scrape_custom_error

自定义采集作业采集是否发生失败

aliyun_prometheus_agent_scrape_error_targets_num

采集失败的采集作业总数

aliyun_prometheus_agent_scrape_latency

采集作业采集延迟分布

aliyun_prometheus_agent_scrape_samples_total

采集作业采集到的时间线总数

aliyun_prometheus_agent_send_batch_compressed_bytes_exceeds_limit_total

压缩后的数据包大小超过上限的数量

aliyun_prometheus_agent_send_batch_duration_seconds

发送数据包耗时

aliyun_prometheus_agent_send_config_fail_total

探针主节点同步采集配置失败次数

aliyun_prometheus_agent_send_data_queue_capicaty

探针发送队列容量

aliyun_prometheus_agent_send_data_queue_length

探针发送队列实际使用容量

aliyun_prometheus_agent_send_discovery_config_fail_total

探针主节点同步采集作业失败次数

aliyun_prometheus_agent_sync_worker_series_duration_ms

探针主节点同步采集作业状态耗时

aliyun_prometheus_agent_target_info

探针采集作业详细信息

aliyun_prometheus_agent_unzip_response_body_exceed_512M

探针采集目标单次采集未压缩大小超过512 M的次数

aliyun_prometheus_agent_worker_series_num

探针从节点采集的时间线总数

aliyun_prometheus_agent_worker_targets_num

探针从节点采集作业总数

aliyun_prometheus_agent_write_arms_duration_num

探针数据发送耗时

aliyun_prometheus_agent_write_fail500_total

探针写入重试次数

aliyun_prometheus_agent_write_fail_batch_total

探针写入失败数据包总数

aliyun_prometheus_agent_write_fail_bytes_total

探针写入失败字节量

aliyun_prometheus_agent_write_fail_down_grade_total

探针写入失败导致降级次数

aliyun_prometheus_agent_write_fail_total

探针写入失败次数(重试全部失败)

aliyun_prometheus_agent_write_succeed_batch_total

探针写入成功数据包总数

aliyun_prometheus_agent_write_succeed_bytes_total

探针写入成功字节量

aliyun_prometheus_agent_write_total

探针写入次数

aliyun_prometheus_agent_writert_total

探针写入耗时

aliyun_prometheus_agent_hpa_max_limit

探针横向扩容副本数上限

scrape_bytes_scraped

采集作业单次采集的字节数