本文介绍可观测监控 Prometheus 版支持的自监控基础指标。基础指标不收费。
指标 | 描述 |
aliyun_prometheus_agent_all_series_num | 每个周期抓取的时间线总数 |
aliyun_prometheus_agent_all_targets_num | 每个周期抓取的 Targets 总数 |
aliyun_prometheus_agent_blackbox_probe_total | 执行 Blackbox Probe 动作总次数 |
aliyun_prometheus_agent_cluster_node_num | 容器集群内的节点总数 |
aliyun_prometheus_agent_cpu_limit | 探针 CPU 资源 Limit |
aliyun_prometheus_agent_cpu_usage_rate | 探针 CPU 资源利用率(百分数) |
aliyun_prometheus_agent_dns_not_available_total | 发送数据时出现的 DNS 不可用次数 |
aliyun_prometheus_agent_drop_metrics_exist | 是否存在废弃指标 |
aliyun_prometheus_agent_heartbeat | 探针心跳指标,每 15 秒自增1 |
aliyun_prometheus_agent_job_discovery_status | 采集配置是否加载成功 |
aliyun_prometheus_agent_job_scrape_status | 默认采集配置是否抓取成功 |
aliyun_prometheus_agent_local_storage_conflicts_total | 探针内部队列是否发生阻塞 |
aliyun_prometheus_agent_master_send_targets_time | 探针主节点分发采集任务耗时 |
aliyun_prometheus_agent_master_send_targets_total | 探针主节点分发采集任务次数 |
aliyun_prometheus_agent_memory_usage_rate | 探针内存资源利用率(百分数) |
aliyun_prometheus_agent_memorybackpressure_total | 探针发送失败导致背压次数 |
aliyun_prometheus_agent_memorylimit_alloc_mb | 探针分配的内存大小 |
aliyun_prometheus_agent_memorylimit_limit_mb | 探针分配的内存上限 |
aliyun_prometheus_agent_regis_fail_total | 探针初始化资源失败次数 |
aliyun_prometheus_agent_relabel_error_num | 探针 Relabel Config 错误次数 |
aliyun_prometheus_agent_remote_write_duration_ms | 探针 Remote Write 写入耗时 |
aliyun_prometheus_agent_remote_write_failed_batch_total | 探针 Remote Write 写入失败的数据包总数 |
aliyun_prometheus_agent_remote_write_failed_down_grade_total | 探针 Remote Write 写入失败导致的写入降级次数 |
aliyun_prometheus_agent_remote_write_succeed_batch_total | 探针 Remote Write 写入成功的数据包总数 |
aliyun_prometheus_agent_remote_write_succeed_bytes_total | 探针 Remote Write 写入失败的数据字节总数 |
aliyun_prometheus_agent_replica_current_num | 探针当前运行状态的预期副本数 |
aliyun_prometheus_agent_restart_by_oom_num | 探针 OOM 次数 |
aliyun_prometheus_agent_scale_out_fail_count | 探针扩容失败次数 |
aliyun_prometheus_agent_scale_out_failed | 探针扩容是否发生失败 |
aliyun_prometheus_agent_scrape_base_delay_15 | 基础采集作业采集延迟是否超过 15 秒 |
aliyun_prometheus_agent_scrape_base_delay_60 | 基础采集作业采集延迟是否超过 60 秒 |
aliyun_prometheus_agent_scrape_base_error | 基础采集作业采集是否发生失败 |
aliyun_prometheus_agent_scrape_custom_delay_15 | 自定义采集作业采集延迟是否超过 15 秒 |
aliyun_prometheus_agent_scrape_custom_delay_60 | 自定义采集作业采集延迟是否超过 60 秒 |
aliyun_prometheus_agent_scrape_custom_error | 自定义采集作业采集是否发生失败 |
aliyun_prometheus_agent_scrape_error_targets_num | 采集失败的采集作业总数 |
aliyun_prometheus_agent_scrape_latency | 采集作业采集延迟分布 |
aliyun_prometheus_agent_scrape_samples_total | 采集作业采集到的时间线总数 |
aliyun_prometheus_agent_send_batch_compressed_bytes_exceeds_limit_total | 压缩后的数据包大小超过上限的数量 |
aliyun_prometheus_agent_send_batch_duration_seconds | 发送数据包耗时 |
aliyun_prometheus_agent_send_config_fail_total | 探针主节点同步采集配置失败次数 |
aliyun_prometheus_agent_send_data_queue_capicaty | 探针发送队列容量 |
aliyun_prometheus_agent_send_data_queue_length | 探针发送队列实际使用容量 |
aliyun_prometheus_agent_send_discovery_config_fail_total | 探针主节点同步采集作业失败次数 |
aliyun_prometheus_agent_sync_worker_series_duration_ms | 探针主节点同步采集作业状态耗时 |
aliyun_prometheus_agent_target_info | 探针采集作业详细信息 |
aliyun_prometheus_agent_unzip_response_body_exceed_512M | 探针采集目标单次采集未压缩大小超过512 M的次数 |
aliyun_prometheus_agent_worker_series_num | 探针从节点采集的时间线总数 |
aliyun_prometheus_agent_worker_targets_num | 探针从节点采集作业总数 |
aliyun_prometheus_agent_write_arms_duration_num | 探针数据发送耗时 |
aliyun_prometheus_agent_write_fail500_total | 探针写入重试次数 |
aliyun_prometheus_agent_write_fail_batch_total | 探针写入失败数据包总数 |
aliyun_prometheus_agent_write_fail_bytes_total | 探针写入失败字节量 |
aliyun_prometheus_agent_write_fail_down_grade_total | 探针写入失败导致降级次数 |
aliyun_prometheus_agent_write_fail_total | 探针写入失败次数(重试全部失败) |
aliyun_prometheus_agent_write_succeed_batch_total | 探针写入成功数据包总数 |
aliyun_prometheus_agent_write_succeed_bytes_total | 探针写入成功字节量 |
aliyun_prometheus_agent_write_total | 探针写入次数 |
aliyun_prometheus_agent_writert_total | 探针写入耗时 |
aliyun_prometheus_agent_hpa_max_limit | 探针横向扩容副本数上限 |
scrape_bytes_scraped | 采集作业单次采集的字节数 |