为时序库创建告警

更新时间:2025-03-28 07:39:16

日志服务支持PromQL、SQL以及PromQL+SQL三种时序数据查询与分析语法,允许您根据特定的查询需求设定告警规则,实现对关键指标的精准监控与即时告警通知。本文向您介绍为时序库创建告警规则的一些常见案例。

使用PromQL语句查询分析并创建告警

  1. 在时序库查询界面,参考下图,使用PromQL语法查询请求量的增长率。然后单击右上角另存为告警,将当前的PromQL语句保存成告警。

    rate(apiserver_request_total[1m])

    image

  2. 在创建告警页面,配置规则名称检查频率触发条件输出目标等参数项,然后点击确定。详细步骤请参见快速设置日志告警

使用SQL+PromQL语法查询分析并创建告警

  1. 在时序库页面,单击更多操作 > 自定义分析,进入到同名日志库查询页面。

    image

  2. 在日志库查询页面,使用SQL语法与日志服务提供PromQL函数进行嵌套查询预览,然后单击右上角的告警,设置日志告警。以下为您提供常见的设置告警案例。

    • up指标表示进程的存活状态,使用下面的告警策略可判断进程是否存活。

      * | select promql_query('up == 0') from metrics limit 1000
    • process_resident_memory_bytes表示常驻内存,下面的告警策略表示“若实例的常驻内存大于8GB”则告警。

      * | select promql_query('process_resident_memory_bytes/1024/1024/1024 > 8') from metrics limit 1000
    • CPU使用率大于500%则告警,告警策略中的SQL可参考下文。

      * | select promql_query('rate(process_cpu_seconds_total[1m]) > 5') from metrics limit 1000
    • Go进程中协程数量大于500则告警,告警策略中的SQL可参考下文。

      * | select promql_query('sum by(instance) (go_goroutines) > 500') from metrics limit 1000
    • GC时间过长则发出告警,告警策略中的SQL可参考下文。

      * | select promql_query('sum(rate(go_gc_duration_seconds_sum[1m])) by (instance) /sum(rate(go_gc_duration_seconds_count[1m])) by (instance) > 0.1') from metrics limit 1000

    image

  • 本页导读 (1)
  • 使用PromQL语句查询分析并创建告警
  • 使用SQL+PromQL语法查询分析并创建告警