全部产品
云市场

实例监控重点指标参考

更新时间:2019-06-29 07:31:19

Prometheus自监控输出指标

Prometheus Server启动后会在默认9090端口/metrics输出自身监控指标,本文总结这些监控指标的意义,特别是与产品上线健康检查相关的指标,用户可以配置相应的云监控报警规则。

重点监控指标

数据抓取相关

  • scrape_duration_seconds:每次抓取的耗时,为了保持Prometheus Server能按照预设的抓取频率稳定搜集数据,抓取耗时不应该超过抓取数据的周期。
  • scrape_samples_scraped:每次抓取的数据点数。

本地内存与磁盘写入相关

  • process_resident_memory_bytes: 内存使用大小
  • process_virtual_memory_bytes: 虚拟内存使用
  • go_memstats_gc_sys_bytes: 用于GC元数据的字节数
  • go_memstats_heap_alloc_bytes: 分配并仍在使用的堆字节数
  • go_memstats_sys_bytes: 从系统获得的字节数
  • prometheus_tsdb_storage_blocks_bytes: 当前本地存储所有数据块的字节数。该指标对应本地磁盘数据文件夹下chunks文件的总大小(不包括WAL大小)。
  • prometheus_remote_storage_samples_in_total:写入数据样本总数,如果监控流量一定,这是一个随时间增长的

counter类型指标:

使用PromQL的rate()函数,可以得到该指标在某一定长滑动时间窗口的平均增长率,比如rate(prometheus_remote_storage_samples_in_total[1m])处理后的衍生指标。在运行时,可以配置一个关于此监控指标的Alert,在数据流量超过特定规格下的流量上限时及时给用户报警。

prometheus_tsdb_blocks_loaded:该指标显示当前数据blocks个数。Block数量下降的时刻是Prometheus进程进行了数据块合并操作(compaction),合并操作可以通过prometheus_tsdb_compaction_populating_block指标监测到

失败监控指标(正常情况下为0)

  • prometheus_target_scrape_pools_failed_total: 失败的抓取池总数
  • prometheus_target_scrape_pools_failed_total: 失败的scrape循环重新加载的总数
  • prometheus_rule_evaluation_failures_total: 规则评估失败的总数
  • prometheus_tsdb_checkpoint_creations_failed_total: 失败的检查点创建总数
  • prometheus_tsdb_checkpoint_deletions_failed_total: 失败的检查点删除总数
  • prometheus_tsdb_compactions_failed_total: 失败的数据块合并压缩总数
  • prometheus_tsdb_head_truncations_failed_total: 失败的头部数据块删减总数
  • prometheus_tsdb_reloads_failures_total: 无法从本地磁盘重新加载块数据的次数
  • prometheus_tsdb_wal_truncations_failed_total: 失败的WAL删减总数
  • prometheus_tsdb_wal_corruptions_total: WAL损坏的总数
  • prometheus_notifications_dropped_total: 发送到Alertmanager时由于错误而丢弃的警报总数