Logstash已支持对实例进行监控,并允许通过短信接收报警。您可以根据需求,自定义报警阈值。本文档介绍Logstash云监控报警的配置方法,帮助您快速地使用云监控报警对实例进行实时监控。

监控报警项

注意 强烈建议您配置监控报警。
以下三个报警项较为重要,强烈建议您进行配置。
  • 集群状态。

    主要监控集群状态为绿色还是红色。

  • 节点磁盘使用率(%)。

    报警阀值控制在75%以下,不要超过80%。

  • 节点HeapMemory使用率(%)。

    报警阀值控制在85%以下,不要超过90%。

建议您同时配置以下几个报警项。
  • 节点CPU使用率(%)。

    报警阀值控制在95%以下,不要超过95%。

  • 节点load_1m。

    以CPU核数的80%为参考值。

  • 集群查询QPS(Count/Second)。

    以实际测试结果作为参考。

  • 集群写入QPS(Count/Second)。

    以实际测试结果作为参考。

进入云监控报警控制台

阿里云Logstash为您提供以下两种方式进入云监控报警控制台。

  • Logstash控制台。

    登录阿里云Logstash控制台,单击实例ID > 集群监控。在实例的集群监控页面,单击前往云监控配置,即可进入对应Logstash实例的创建报警规则页面。

    进入云监控报警控制台
  • 云监控控制台。
    1. 登录阿里云控制台,选择产品导航栏下的云监控
    2. 在云监控控制台中,单击报警服务 > 报警规则 > 创建报警规则
    3. 创建报警规则页面,选择关联资源中的产品为阿里云LogstashService
    4. 选择实例地域和ID,即可配置对应Logstash实例的报警规则。
      创建报警规则页面

监控指标配置

  1. 进入阿里云Logstash实例的创建报警规则页面。
  2. 配置关联资源。
    配置关联资源
    参数 说明
    产品 选择阿里云LogstashService
    资源范围 选择实例
    地域 选择Logstash实例所在地域。
    实例 选择实例ID。
  3. 设置报警规则。
    设置报警规则
    • 集群的状态对应GreenYellowRed,转换成数值对应0.01.02.0。所以在配置集群状态报警指标时,需要按照对应数值的大小进行报警配置。
    • 通道沉默时间是指,同一个指标在一定时间范围内,只会触发一次报警。
      说明 其他参数说明请参见报警规则参数说明
  4. 配置告警通知方式,选择云账号报警联系人

    如果您还没有报警联系组,可以单击快速创建联系人组,进行创建。

    快速创建联系人组
    说明 您可以在报警回调中填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认,完成报警配置。

    配置完成后,Logstash实例的监控信息,将在实例正常生产后5分钟内开始采集,并提供监控数据展示。