设置常用的MongoDB监控报警规则

云数据库MongoDB提供实例状态监控及报警功能。本文将介绍设置磁盘空间使用率、IOPS使用率、连接数使用率、CPU使用率等常用的监控项目。

背景信息

  • 随着数据量及业务的发展,MongoDB实例的性能资源使用率可能会逐步提升,直至被消耗殆尽。

  • 某些场景下MongoDB实例的性能资源可能被大量地异常消耗。如大量的慢查询引起的CPU使用率上升,大量数据写入导致磁盘空间被急剧消耗等情况。

    重要

    当磁盘容量不足将导致实例被锁定。

通过对实例的关键性能指标设置监控报警规则,让您在第一时间得知指标数据发生异常,帮助您迅速定位并处理故障。

操作步骤

  1. 登录MongoDB管理控制台

  2. 在页面左上角,选择实例所在的资源组和地域。

  3. 根据实例类型,在左侧导航栏,单击副本集实例列表分片集群实例列表

  4. 单击目标实例ID或目标实例所在行操作列的管理

  5. 在目标实例页面的左侧导航栏,单击报警规则

  6. 单击设置报警规则,跳转至云监控控制台。

  7. 在云监控控制台的报警规则页面,单击页面左上角的创建报警规则

  8. 创建报警规则面板,设置报警规则相关参数。

    参数

    说明

    产品

    云监控可管理的云产品名称。例如:

    • 云数据库MongoDB版-副本集

    • 云数据库MongoDB版-分片集群

    • 云数据库MongoDB版-单节点实例

    资源范围

    报警规则作用的资源范围。取值:

    • 全部资源:报警规则作用于指定云产品的全部资源上,对于新加入的资源生效。

    • 应用分组:报警规则作用于指定云产品的指定应用分组内的全部资源上,对于新加入的资源生效。

    • 实例:报警规则作用于指定云产品的指定资源上。

    规则描述

    报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:

    1. 单击添加规则

    2. 添加规则描述面板,设置规则名称、指标类型、监控指标、阈值和报警级别等报警规则。

    3. 单击确定

    说明

    关于如何设置复杂的报警条件,请参见报警规则表达式说明

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

    某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

    例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

    生效时间

    报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组。

    应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

    关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系组

    标签

    报警规则的标签。包括标签名称和标签值。

    关于高级设置的设置,请参见创建报警规则

  9. 设置完成后,单击确认。报警规则将自动生效。