云数据库MongoDB提供实例状态监控及报警功能。本文将介绍设置磁盘空间使用率、IOPS使用率、连接数使用率、CPU使用率等常用的监控项目。

背景信息

  • 随着数据量及业务的发展,MongoDB实例的性能资源使用率可能会逐步提升,直至被消耗殆尽。
  • 某些场景下MongoDB实例的性能资源可能被大量地异常消耗。如大量的慢查询引起的CPU使用率上升,大量数据写入导致磁盘空间被急剧消耗等情况。
    说明 当磁盘容量不足将导致实例被锁定。如遇到实例被锁定您可以提交工单。实例解锁后您可以通过变更配置来增加磁盘空间。

通过对实例的关键性能指标设置监控报警规则,让您在第一时间得知指标数据发生异常,帮助您迅速定位并处理故障。

操作步骤

  1. 登录MongoDB管理控制台
  2. 在页面左上角,选择实例所在的地域。
  3. 找到目标实例,单击实例ID。
  4. 在左侧导航栏中,单击报警规则
  5. 单击设置报警规则,跳转至云监控控制台页面。
  6. 云监控控制台页面,单击页面右上角的创建报警规则
  7. 创建报警规则页面,设置关联资源。


    设置项目 说明
    产品 下拉选择实例类型。
    • 云数据库MongoDB版-副本集
    • 云数据库MongoDB版-分片集群
    • 云数据库MongoDB版-单节点实例
    说明 当选择 云数据库MongoDB版-分片集群时,请选择需要监控的 Mongos节点和 Shard节点。
    资源范围
    • 资源范围选择全部实例,则产品下任何实例满足报警规则描述时,都会发送报警通知。
    • 选择指定的实例,则选中的实例满足报警规则描述时,才会发送报警通知。
    地域 选择实例所属地域。
    实例 选择实例ID,可选择多个实例。
  8. 设置报警规则,此处先设置磁盘空间使用率,设置完成后单击添加报警规则


    说明
    • 例如规则描述为磁盘使用率5分钟平均值>=80%,则报警服务会5分钟检查一次5分钟内的数据是否满足平均值>=80%。您可以根据您的业务场景微调相关数值。
    • 角色选择为任意角色即代表监控实例的 Primary 节点和 Secondary 节点。
  9. 参考上一步骤设置IOPS使用率、连接数使用率、CPU使用率的监控报警规则。

  10.  设置报警规则的其他项目。
    设置项目 说明
    通道沉默时间 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    连续几次超过阈值后报警

    即连续几次报警的探测结果符合您设置的规则描述,才会触发报警,建议设置为3次。

    例如规则描述为"CPU使用率 5分钟内平均值>80%,连续3次超过阈值后报警",则连续出现3次 CPU使用率 5分钟内平均值>80%的情况,才会触发报警。

    生效时间 设置报警规则生效的时间。
  11. 设置通知方式。
    设置项目 说明
    通知对象 发送报警的联系人或联系组,详情请参考报警联系人和报警联系组
    报警级别 分为Critical 、Warning、Info三个等级,不同等级对应不同的通知方式。
    • Critical:电话语音+手机短信+邮件+钉钉机器人
    • Warning:手机短信+邮件+钉钉机器人
    • Info:邮件+钉钉机器人
    邮件主题 自定义报警邮件的主题,默认为产品名称+监控项名称+实例ID。
    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 详情请参考使用报警回调
  12. 设置完成后,单击确认。报警规则将自动生效。