云数据库MongoDB产品已接入云监控平台,通过订阅重要的系统事件和设置报警规则,帮助您实时掌握事件动态和运行情况。
背景信息
云监控(CloudMonitor)是针对阿里云资源和互联网应用提供监控的服务。云监控的报警服务为您提供以下两种报警通知能力,当阿里云产品发生系统异常时,您可以及时知晓发生的事件,并自动处理异常事件(例如云产品故障)。
订阅事件:通过短信、邮件、钉钉机器人的方式,将事件通知直接触达指定人员,以便快速响应。
设置报警:将报警分发到您的轻量消息队列、函数计算、URL回调和日志服务中,以便根据业务场景自动化处理异常报警。
操作步骤
订阅事件
以订阅云数据库MongoDB版的系统事件实例故障开始为例,为您介绍订阅事件的完整操作流程。
登录云监控控制台。
在左侧导航栏,选择 。
在订阅策略页签,单击创建订阅策略。
在创建订阅策略页面,设置订阅策略的相关参数。
基本信息:输入订阅策略名称。
报警订阅:
订阅类型选择系统事件。
订阅范围中的产品选择云数据库MongoDB版、事件类型选择异常、事件名称选择实例故障开始、事件等级选择严重(Critical),应用分组、事件内容和事件资源均不设置,表示订阅本账号内所有应用分组中的所有云数据库MongoDB版实例的系统事件实例故障开始。
说明关于云数据库MongoDB版支持的系统事件,请参见云监控事件列表。
合并降噪:使用默认值。
通知:创建通知配置,自定义通知方式使用默认通知方式。
创建通知配置时,先输入通知配置名称,再选择通知设置为直接设置通知组,然后选择报警联系组,最后单击确定。
说明关于如何创建通知配置,请参见管理通知配置。
系统自动根据报警组中报警联系人的通知方式发送报警通知,例如:报警联系人中设置了手机号码和邮箱,自定义通知方式使用默认通知方式,则报警联系人只会收到报警电话、短信和邮件。
推送与集成:无需配置。
说明关于如何创建推送渠道,请参见管理推送渠道。
表 1. 订阅策略参数说明
区域
参数
说明
基本信息
名称
订阅策略的名称。建议您使用中文名称。
描述
订阅策略的描述信息。
报警订阅
订阅类型
报警订阅的类型。取值:
系统事件:系统事件汇集了各类云产品的故障和运维事件。通过订阅系统事件,您可以在事件发生时及时收到通知或触发外部系统。您需要设置系统事件的订阅范围,包括:产品、事件类型、事件名称、事件等级、应用分组、事件内容和事件资源。
事件内容:是指事件详情内Content内的字段, 输入框会对关键字进行包含匹配,如需输入多个关键字通过,进行分割。在白名单模式下,多个关键字满足一个即可匹配;在黑名单模式下,多个关键字需要全部都匹配。例如在白名单时,事件内容输入框输入:re,1754xxxxx651403,代表存在re或者1754xxxxx651403字段的所有事件都会被过滤出来。
"content": {"invokeId": "t-bj05sxXXXXXXa5xq8","repeats": 1,"finishTime": "2025-08-05T17:07:17Z","commandName": "cmd-2025-08-06","instanceId": "i-2ze61xxxxxugk0zoh7","repeatMode": "Once","playerUid": 1754xxxxx651403,"exitCode": 0,"startTime": "2025-08-05T17:07:14Z","ownerId": 18250xxxxx44564,"commandId": "c-bj05sxxxxxxog00","invocationStatus": "Success"}
事件资源:是云产品对应的ResourceId,例如:
acs:ecs:cn-shanghai:{uid}:instance/{instanceId}
。 输入框会对关键字进行包含匹配,如需输入多个关键字通过,进行分割。在白名单模式下,多个关键字满足一个即可匹配;在黑名单模式下,多个关键字需要全部都匹配。例如在白名单时,事件资源输入框输入:instanceId_1,instanceId_2
,代表实例ID为instanceId_1或者instanceId_2的事件都会被过滤出来。
阈值事件:当阈值报警规则满足报警条件时,会同时触发云监控的阈值事件,通过订阅阈值事件,您可以对报警通知进行细粒度的控制和定制化,例如:合并降噪、自定义通知方式等。您需要设置阈值事件的订阅范围,包括:产品分类、监控指标、严重等级和应用分组。
合并降噪
说明如果您不设置合并规则,则默认会合并订阅策略接受的所有报警。
合并内容
从订阅类型的订阅范围中选择合并维度。
降噪
降低报警通知的频率。包括以下三种:
条件触发,触发后抑制通知:表示某段时间(默认5分钟)内连续触发几次(默认5次)通知后,进入某段时间(默认5分钟)的沉默期,沉默期内不再重复通知,沉默期结束后重复此流程。
直接触发,触发后抑制通知:表示触发报警后直接通知,通知后进入某段时间(默认5分钟)的沉默期,沉默期不再重复通知,沉默期结束后重复此流程。
直接触发,不抑制(使用系统默认的防风暴设定):表示触发报警后,直接发送通知。
说明默认防风暴设定规则如下:
短信:2分钟5条。
电话:2分钟3通。
邮件:5分钟最多50封。
通知
通知配置
当系统事件或阈值事件达到报警条件后,直接通知报警联系人或根据报警级别通知不同的报警联系人。
您可以选择已有通知配置,也可以单击创建通知配置,新创建一个通知配置。
关于如何设置通知配置策略的相关参数,请参见管理通知配置。
自定义通知方式
自定义报警通知方式。
单击某种通知方式后面的修改,修改通知模板和报警级别。
推送与集成
推送渠道
报警通知的推送渠道。创建推送渠道的具体操作如下:
单击创建新推送。
选择已有推送渠道,或单击添加渠道,新创建一个推送渠道。
关于如何设置推送渠道的相关参数,请参见管理推送渠道。
单击提交。
调试事件订阅。
在订阅策略页签,单击调试事件订阅。
在创建事件调试面板,产品选择云数据库MongoDB版,名称选择实例故障开始。
系统自动生成JSON格式的调试内容。
单击确定。
系统提示操作成功,云监控自动根据订阅策略中的通知方式给报警联系人发送一条报警测试通知。
设置报警
创建报警联系人或报警联系组,具体请参见创建报警联系人或报警联系人组。
登录MongoDB管理控制台。
根据实例类型,在左侧导航栏,单击副本集实例列表或分片集群实例列表。
在页面左上角,选择实例所在的资源组和地域。
单击目标实例ID或目标实例所在行操作列的管理。
设置事件报警。
在目标实例页面的左侧导航栏,单击报警规则。
单击设置报警规则跳转至云监控控制台。
单击创建报警规则。
在创建报警规则面板,设置以下参数。
参数
说明
产品
无需修改,默认为当前实例的类型。
资源范围
报警规则作用于指定云产品的指定资源,默认为实例。
关联资源
无需修改,默认为当前实例的实例ID。
规则描述
报警规则的主体。当监控数据满足报警条件时,触发报警规则。规则描述的设置方法如下:
单击添加规则。
在设置规则描述面板,先输入规则名称,再设置指标类型。
单指标:先选择监控指标,再为其设置阈值和报警级别。
多指标:先选择报警级别,再为两个或两个以上的监控指标设置报警条件。
智能阈值:关于智能阈值的更多信息,请参见概览和创建智能阈值报警规则。
单击确定。
说明关于如何设置复杂的报警条件,请参见报警规则表达式说明。
通道沉默周期
报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。
某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。
例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。
生效时间
报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。
说明当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。
报警联系人组
发送报警的联系人组。
应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。
关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系人组。
标签
报警规则的标签。包括标签名称和标签值。
说明您最多可设置6组标签。
报警回调
公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。关于如何设置报警回调,请参见使用阈值报警回调。
当您需要测试报警回调地址的连通性时,可以执行以下操作。
单击回调地址右侧的测试。
在WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。
说明您还可以设置Webhook的回调模板类型和语言,再次单击测试,获取对应的测试结果详情。
单击关闭。
说明单击高级设置,可设置该参数。
弹性伸缩
如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域、弹性伸缩组和弹性伸缩规则。
说明单击高级设置,可设置该参数。
日志服务
如果您打开日志服务开关,当报警发生时,会将报警信息发送至日志服务的日志库。您需要设置日志服务的地域、ProjectName和Logstore。
关于如何创建Project和Logstore,请参见快速入门:使用Logtail采集ECS文本日志并分析。
说明单击高级设置,可设置该参数。
轻量消息队列(原 MNS)— topic
如果您打开轻量消息队列(原 MNS)— topic开关,当报警发生时,会将报警信息发送至轻量消息队列的主题。您需要设置轻量消息队列的地域和主题。
关于如何创建主题,请参见创建主题。
说明单击高级设置,可设置该参数。
函数计算
如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。
关于如何创建服务和函数,请参见快速创建函数。
说明单击高级设置,可设置该参数。
无数据处理方法
无监控数据时报警的处理方式。取值:
不做任何处理(默认值)
发送无数据报警
视为恢复
说明单击高级设置,可设置该参数。
单击确定。
相关API
云监控产品的API接口 | 说明 |
创建或修改事件的报警规则。 |