文档

报警设置

更新时间:

为了不错失重要通知,建议您对重要的监控指标设置报警规则。当云原生内存数据库Tair性能指标(CPU、内存使用率等)异常或实例触发高可用切换时,云监控平台会向您发送警告信息。

背景信息

云监控(CloudMonitor)是针对阿里云资源和互联网应用提供监控的服务,为您提供开箱即用的企业级开放型一站式监控解决方案。您可以创建报警规则、设置监控项,在监控项的报警规则被触发时,云监控将通知报警联系组中的所有联系人。

说明

报警联系人和联系组是云监控发送报警通知的基础。您需要先创建报警联系人和报警联系组,并将报警联系人添加到报警联系组。具体操作,请参见创建报警联系人或报警联系人组

操作步骤

  1. 访问Tair实例列表,在上方选择地域,然后单击目标实例ID。

  2. 在左侧导航栏,单击报警设置

  3. 报警设置页面,查看当前实例的监控项。

    您也可以单击页面右上方报警设置,进入云监控控制台,添加或管理报警规则。配置方法说明:

    • 创建报警规则:当监控项超过设定阈值时(例如实例的CPU使用率大于90%),系统将自动发送报警通知,帮助您及时了解监控数据异常并处理。

      通常情况下,业务对Tair实例的CPU、内存和网络流量的波动比较敏感,建议为下述关键指标设置报警阈值:

      • CPU使用率:大于60%。

      • 内存使用率:大于80%。

      • 流入带宽使用率和流出带宽使用率:大于80%。

      云监控平台支持的监控指标请参见附录1 云产品监控指标

    • 订阅事件通知:当Tair实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。

常见问题

报警设置中的监控指标“阻塞客户端连接数”是什么意思?

创建报警规则中的监控指标Node/阻塞客户端连接数是指Tair实例使用了阻塞式请求,例如BRPOP、BLPOP、BZPOPMIN、BZPOPMAX与XREAD等,并处于阻塞(等待)中的客户端连接数。