ECS实例在运行过程中可能发生性能波动,原因包括ECS实例自身突发异常、ECS实例所在宿主机突发异常、阿里云主动执行维护操作等。阿里云推出实例性能类事件,为您传递可能导致实例性能受损的事件信息,供您及时了解ECS实例的运行状态。

背景信息

系统事件提供多种查询方式,满足运维人员、运维系统、第三方云产品消费使用,构建闭环操作。更多信息,请参见系统事件概述

支持的实例性能类事件如下表所示。
说明 实例性能类事件邀测中,如需使用,请提交工单
事件类型 事件参数 可能原因 应对建议
因实例错误实例性能受损 InstanceFailure.PerformanceImpact 实例内部发生了不可预期的异常,例如GuestOS内核hang等。 建议您登录实例定位异常原因并处理异常,处理异常后关注事件状态。如果该事件不再持续报出,代表已消除性能受损。
因系统维护实例性能受损 SystemMaintenance.PerformanceImpact 可能原因是为了规避宿主机的潜在故障风险,阿里云主动对实例进行维护操作,例如软件热升级、实例热迁移、网线网卡在线维修等,在维护过程中可能导致宿主机上实例的性能受损。 建议您登录ECS控制台,查看待处理事件,按照提示处理事件。更多信息,请参见查看系统事件。处理过程中请关注该事件的ScheduledExecutingExecuted状态。
因系统错误实例性能受损 SystemFailure.PerformanceImpact 实例所在宿主机发生了不可预期的异常,例如内存CE错误、热迁移导致性能受损等,导致宿主机上实例的性能受损。 阿里云自动处理此类异常并恢复实例,您关注事件状态即可。如果该事件不再持续报出,代表已消除性能受损。

阿里云自动处理此类异常时会触发实例自动恢复事件,更多信息,请参见实例自动恢复事件

通过云监控查询和订阅系统事件

  1. 登录云监控管理控制台
  2. 按以下步骤查询系统事件。
    1. 在左侧导航栏,单击事件监控
    2. 在事件查询页签下,按系统事件云服务器ECS全部类型全部事件筛选事件,并在结果中查找实例性能类事件。
      您也可以按细分事件类型筛选,对应关系如下:
      • 因实例错误实例性能受损:暂无筛选项。
      • 因系统错误实例性能受损:实例性能影响开始(系统错误)实例性能影响结束(系统错误)
      • 因系统维护实例性能受损:实例性能潜在影响开始(系统维护)实例性能潜在影响结束(系统维护)
      view-event
  3. 可选:按以下步骤添加报警联系人。
    如果您已经设置了报警联系人,可以跳过此环节。
    1. 在左侧导航栏,选择报警服务 > 报警联系人
    2. 单击新建联系人
    3. 设置报警联系人信息后,单击确认
      说明 关于如何添加钉钉机器人的更多详情,请参见通过钉钉群接收报警通知
      add-contact
  4. 按以下步骤订阅事件通知。
    1. 在左侧导航栏,单击事件监控
    2. 在报警规则页签下,选择系统事件,然后单击创建事件报警
      add-alarm
    3. 创建/修改事件报警页面,设置报警通知后,单击确定
      configure-alarm
  5. 测试订阅效果。
    • 短信订阅效果如下所示。短信订阅效果
    • 邮件订阅效果如下所示。邮件订阅效果
    • 钉钉机器人订阅效果如下所示。钉钉机器人订阅效果

通过OpenAPI Explorer查询实例系统事件

如果您拥有大量ECS实例,推荐您使用API查询和处理系统事件,基于程序化处理的方式并配合其他运维动作构建自动化运维。本示例通过调试平台OpenAPI Explorer,调用接口DescribeInstanceHistoryEvents为例,查询实例最近一周的历史事件。

  1. 登录OpenAPI开发者门户
  2. 在左侧导航栏,选择云服务器 ECS
  3. 在出现的接口搜索栏中输入DescribeInstanceHistoryEvents
  4. 在请求参数处,填入以下请求参数后,单击发送请求
    请求参数:
    • RegionId:地域ID
    • InstanceId:实例ID
    • EventId.N:事件ID
  5. 在返回结果处,查看以下返回参数。
    返回参数:
    • InstanceId:实例ID
    • EventId:事件ID
    • EventType:事件类型,关注InstanceFailure.PerformanceImpactSystemFailure.PerformanceImpactSystemMaintenance.PerformanceImpact
    • EventCycleStatus:事件状态
    • EventPublishTime:事件初始发布UTC时间
    • NotBefore:事件执行UTC时间
    • EventFinishTime:事件结束UTC时间
    发送请求