当业务运行在云服务器ECS中时,为保障业务运行的稳定性以及实现自动化运维,建议您设置事件通知来监听底层环境的变化。本文介绍如何在云监控控制台创建系统事件报警规则,实现自动推送事件通知,帮助您及时掌握事件动态。

背景信息

云监控是(CloudMonitor)是针对阿里云资源和互联网应用提供监控的服务,支持集中管理、监控各云服务的系统事件,为您提供各云服务系统事件的统一查询入口,使您及时得知各云服务的运行状态,并接收报警通知。

所有系统事件均可以通过云监控配置报警规则,当事件发生时会及时报警。云监控支持以下两种报警能力:
  • 通过短信、邮件、钉钉机器人等方式,对事件发生进行报警。
  • 将事件分发到您的消息服务队列、函数计算、URL回调和日志服务中,以便您根据业务场景自动化处理异常事件。

设置事件通知

注意 如果事件报警规则需要作用于指定应用分组的实例上,则请您确保已创建应用分组,且已将资源添加至该应用分组。具体操作,请参见创建应用分组添加资源至应用分组
  1. 登录云监控管理控制台
  2. 在左侧导航栏中,选择事件监控 > 系统事件
  3. 事件监控页面,单击事件报警规则页签,然后单击创建报警规则
  4. 创建/修改事件报警面板,设置报警通知。
    主要参数说明如下表所示。更多信息,请参见创建系统事件报警规则
    参数区域 参数 描述
    基本信息 报警规则名称 按界面提示的格式要求输入名称。
    事件报警规则 产品类型 选择云服务器ECS
    事件类型 选择您需要订阅的事件类型。可选项有状态通知异常维护
    事件等级 选择您需要订阅的事件等级。可选项有严重CRITICAL)、警告WARN)和信息INFO)。
    事件名称 选择您需要消费的事件名称,可多选。
    说明 不建议您选择全部事件选项,而是按照事件对业务的影响程度创建不同等级的事件通知。
    资源范围 选择全部资源时,任何资源发生相关事件,都会按照配置发送事件通知。
    报警方式 通知方式 在事件发生时可以通过短信、邮箱或钉钉机器人等方式推送事件通知。 请根据需要选择。
    说明 信息INFO)级别的事件推送频率较高,因此不建议对INFO事件设置报警通知,避免您被大量的事件通知打扰。
    消息处理中间件 您可以配置消息服务队列、函数计算、GET或POST URL回调、日志服务等实现自动化处理事件程序。
    通道沉默周期 选择发送报警通知的间隔时间,即:报警发生后未恢复正常,间隔多久重复发送一次报警通知。
  5. 单击确定完成创建。
    设置了事件通知后,云服务器ECS会推送消息到您设置的通知方式。以下示例为ECS实例发生状态变化的事件通知的非定制化JSON格式消息。
    {
        "eventTime": "20181226T220114.058+0800",
        "id": "9435EAD6-3CF6-4494-8F7A-3A********77",
        "level": "INFO",
        "name": "Instance:StateChange",
        "product": "ECS",
        "regionId": "cn-hangzhou",
        "resourceId": "acs:ecs:cn-hangzhou:169070********30:instance/i-bp1ecr********5go2go",
        "userId": "169070********30",
        "ver": "1.0",
        "content": {
            "resourceId": "i-bp1ecr********5go2go",
            "resourceType": "ALIYUN::ECS::Instance",
            "state": "Stopping"
        }
    }

调试事件通知

创建系统事件报警规则后,您可以使用系统事件的调试功能,验证系统事件报警规则中设置的消息服务队列、函数计算、URL回调和日志服务是否能正常被触发。

  1. 登录云监控控制台
  2. 在左侧导航栏,选择事件监控 > 系统事件
  3. 单击事件报警规则页签。
  4. 单击目标报警规则对应操作列的调试
  5. 创建事件调试面板,选择待调试事件。
  6. 内容(JSON格式)区域,显示该事件内容,您可以根据实际环境修改其实例ID等信息。
  7. 单击确定
    云监控根据内容发送一个报警事件,触发报警规则。

相关文档

通过在云监控的报警规则中关联后续处理方式,可以实现自动化处理ECS状态变化事件,例如关联MNS消息队列。具体操作,请参见ECS状态变化事件的自动化运维最佳实践