阿里云LogstashService(简称Logstash)支持对实例进行监控,并支持自定义报警阈值以及通过短信接收报警。为避免出现集群状态不正常、节点磁盘使用率过高等问题而影响阿里云Logstash服务,强烈建议您进行监控报警配置,实时监控集群状态、节点磁盘使用率等信息,及时查收报警短信,提前做好防御措施。

背景信息

阿里云Logstash支持以下监控报警项。
监控项 说明
集群状态 必选。主要监控集群状态,正常状态为绿色,非正常状态为黄色或红色。
节点磁盘使用率(%) 必选。报警阈值控制在75%以下。
节点HeapMemory使用率(%) 必选。报警阈值控制在85%以下。
节点CPU使用率(%) 可选。报警阈值控制在95%以下。
节点load_1m 可选。以CPU核数的80%为参考值。
集群查询QPS(Count/Second) 可选。以实际测试结果作为参考。
集群写入QPS(Count/Second) 可选。以实际测试结果作为参考。

操作步骤

  1. 进入云监控报警控制台。
    您可以通过两种方式进入控制台:
    • 阿里云Logstash控制台
      1. 登录阿里云Logstash控制台
      2. 在顶部菜单栏处,选择地域。
      3. 单击目标实例ID/名称链接。
      4. 基本信息页面,单击右上角的集群监控
    • 云监控控制台
      1. 进入云监控控制台
      2. 单击左侧导航栏的报警服务 > 报警规则
      3. 阈值报警页签,单击创建报警规则
      4. 选择关联资源中的产品为阿里云LogstashService
      5. 选择目标阿里云Logstash实例的地域和ID。
  2. 配置关联资源。
    配置关联资源
    参数 说明
    产品 选择阿里云LogstashService
    资源范围 选择实例
    地域 选择Logstash实例所在地域。
    实例 选择实例ID。
  3. 设置报警规则。
    设置报警规则
    • 集群的状态对应正常(绿色)、警告(黄色)、不健康(红色),转换成数值对应0.01.02.0。所以在配置集群状态报警指标时,需要按照对应数值的大小进行配置。
    • 通道沉默时间是指同一个指标在一定时间范围内,只会触发一次报警。
      说明 其他参数说明请参见报警规则参数说明
  4. 配置告警通知方式,选择云账号报警联系人
    如果您还没有报警联系组,请单击快速创建联系人组,进行创建。快速创建联系人组
    说明 您可以在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认
    配置完成后,阿里云Logstash实例的监控信息将在实例正常运行后5分钟内开始采集,并提供监控数据展示。