ECS实例在运行过程中可能发生性能波动,原因包括ECS实例自身突发异常、ECS实例所在宿主机突发异常、阿里云主动执行维护操作等。阿里云推出实例性能类事件,为您传递可能导致实例性能受损的事件信息,供您及时了解ECS实例的运行状态。
背景信息
系统事件提供多种查询方式,满足运维人员、运维系统、第三方云产品消费使用,构建闭环操作。更多信息,请参见ECS系统事件概述。
支持的实例性能类事件如下表所示。
实例性能类事件邀测中,如需使用,请提交工单。
事件类型 | 事件参数 | 可能原因 | 应对建议 |
因实例错误实例性能受损 | InstanceFailure.PerformanceImpact | 实例内部发生了不可预期的异常,例如GuestOS内核hang等。 | 建议您登录实例定位异常原因并处理异常,处理异常后关注事件状态。如果该事件不再持续报出,代表已消除性能受损。 |
因系统维护实例性能受损 | SystemMaintenance.PerformanceImpact | 可能原因是为了规避宿主机的潜在故障风险,阿里云主动对实例进行维护操作,例如软件热升级、实例热迁移、网线网卡在线维修等,在维护过程中可能导致宿主机上实例的性能受损。 | 建议您登录ECS控制台,查看待处理事件,按照提示处理事件。更多信息,请参见查询和响应ECS系统事件。处理过程中请关注该事件的 |
因系统错误实例性能受损 | SystemFailure.PerformanceImpact | 实例所在宿主机发生了不可预期的异常,例如内存CE错误、热迁移导致性能受损等,导致宿主机上实例的性能受损。 | 阿里云自动处理此类异常并恢复实例,您关注事件状态即可。如果该事件不再持续报出,代表已消除性能受损。 阿里云自动处理此类异常时会触发实例自动恢复事件,更多信息,请参见实例自动恢复事件。 |
通过云监控查询和订阅实例性能类事件
登录云监控控制台。
查询实例性能类事件。
在左侧导航栏,选择 。
在事件监控页签下,按云服务器ECS、全部级别、全部事件筛选事件,并在结果中查找实例性能类事件。
您也可以按细分事件类型筛选,对应关系如下:
因实例错误实例性能受损:因实例错误实例性能开始受损、因实例错误实例性能受损已恢复。
因系统错误实例性能受损:因系统错误实例性能开始受损、因系统错误实例性能受损已恢复。
因系统维护实例性能受损:因系统维护实例性能受损通知中、因系统维护实例性能开始受损、因系统维护实例性能受损已规避、因系统维护实例性能受损已恢复。
订阅实例性能类事件。
本步骤以订阅ECS实例的系统事件因实例错误实例性能开始受损为例,为您介绍订阅事件的完整操作流程。
在左侧导航栏,选择 。
说明您还可以通过系统事件菜单创建订阅策略,具体操作如下:
在左侧导航栏,选择
。在欢迎体验新版事件中心区域,单击立即创建。
在订阅策略页签,单击创建订阅策略。
在创建订阅策略页面,设置订阅策略的相关参数。
基本信息:输入订阅策略名称。
报警订阅:
订阅类型:选择系统事件
订阅范围:
产品:选择云服务器ECS
事件类型:选择异常
事件名称:选择因实例错误实例性能开始受损
事件等级:选择告警(Warning)
应用分组、事件内容和事件资源:均不设置,表示订阅本账号内所有应用分组中的所有ECS实例的系统事件因实例错误实例性能开始受损。
说明关于云服务器ECS支持的系统事件,请参见云服务器ECS。
合并降噪:使用默认值。
通知:创建通知配置,自定义通知方式使用默认通知方式。
创建通知配置时,先输入通知配置名称,再选择通知设置为直接设置通知组,然后选择报警联系组,最后单击确定。
说明关于如何创建通知配置,请参见创建通知配置策略。
系统自动根据报警组中报警联系人的通知方式发送报警通知,例如:报警联系人中设置了手机号码和邮箱,自定义通知方式使用默认通知方式,则报警联系人只会收到报警电话、短信和邮件。
推送与集成:无需配置。
说明关于如何创建推送渠道,请参见创建推送渠道。
通过OpenAPI Explorer查询实例系统事件
如果您拥有大量ECS实例,推荐您使用API查询和处理系统事件,基于程序化处理的方式并配合其他运维动作构建自动化运维。本示例通过调试平台OpenAPI Explorer,调用接口DescribeInstanceHistoryEvents为例,查询实例最近一周的历史事件。
登录OpenAPI开发者门户。
在出现的接口搜索栏中输入DescribeInstanceHistoryEvents。
在请求参数处,填入以下请求参数后,单击发起调用。
请求参数:
RegionId:地域ID
InstanceId:实例ID
EventId.N:事件ID
在返回结果处,查看以下返回参数。
返回参数:
InstanceId:实例ID
EventId:事件ID
EventType:事件类型,关注
InstanceFailure.PerformanceImpact
、SystemFailure.PerformanceImpact
或SystemMaintenance.PerformanceImpact
。EventCycleStatus:事件状态
EventPublishTime:事件初始发布UTC时间
NotBefore:事件执行UTC时间
EventFinishTime:事件结束UTC时间