系统事件用于记录和通知云资源信息,例如运维任务执行情况、资源是否出现异常和资源状态变化等。您可以通过系统事件获取ECS资源的风险和异常信息,例如某一实例到期、实例因底层升级需迁移或因系统维护重启了某一实例等,然后及时响应和处理系统事件,避免因ECS资源可用性或性能受损而影响业务。本文汇总了云服务器ECS支持的系统事件(包括计划内运维事件、非预期运维事件、实例费用事件和实例状态变化事件等),并为各系统事件提供处理建议。
ECS事件Code和云监控事件名称的格式
为了便于您通过系统事件建立自动化运维机制,ECS系统事件会同步至云监控(CloudMonitor),同一事件的ECS事件Code、云监控事件名称遵循了一定的命名格式,格式如下:
ECS事件Code:包括事件起因、对资源的影响的信息,格式为
<事件起因>.<对资源的影响>。云监控事件名称:包括资源类型、事件起因、对资源的影响、事件状态的信息,格式为
<资源类型>:<事件起因>.<对资源的影响>:<事件状态>。
并非所有ECS事件Code和云监控事件名称都会包括所有信息,例如云监控事件名称Disk:ErrorDetected:Executing代表磁盘已经出现损坏,因此无需包括对资源后续影响的信息。
下表通过几个示例说明ECS事件Code和云监控事件名称中包含的信息。
如果ECS事件Code示例列为未定义,代表该系统事件未在ECS控制台中展示,不支持直接在ECS控制台和通过OpenAPI响应。
类别  | ECS事件Code示例  | 云监控事件名称示例  | 说明  | 
计划内运维事件  | SystemMaintenance.Reboot  | Instance:SystemMaintenance.Reboot:Inquiring  | 
  | 
非预期运维事件  | ErrorDetected  | Disk:ErrorDetected:Executing  | 
  | 
生命周期变化事件  | Snapshot:CreateSnapshotCompleted  | Snapshot:CreateSnapshotCompleted  | 
  | 
计划内运维事件
在实例操作系统内部进行重启操作时,无法使事件对应的维护动作生效。因此,本文涉及的重启实例操作指的是通过ECS控制台或调用API方式进行,具体操作,请参见重启实例或RebootInstance - 重启实例。
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
SystemMaintenance.Reboot  | 因系统维护实例重启  | 严重  | 
  | 阿里云检测到ECS实例所在的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重启,且该风险尚未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。 说明  故障风险包括: 
  | 建议您根据需要选择一种响应方式: 说明  
  | 
SystemMaintenance.Stop  | 因系统维护实例停止  | 严重  | 
  | 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例关机并停止,且该风险尚未直接成为故障,在系统维护计划执行前的24~48小时内发送该系统事件。  | 建议您根据需要选择一种响应方式: 
 说明  您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。  | 
SystemMaintenance.Redeploy  | 因系统维护实例重新部署  | 严重  | 
  | 阿里云检测到ECS实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致ECS实例重新部署,且该风险尚未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。 重要  使用了本地SSD盘或者本地HDD盘的实例会重新初始化数据盘,本地盘上的数据会被清空。  | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式: 
 说明  
  | 
SystemMaintenance.IsolateErrorDisk  | 因系统维护隔离坏盘  | 严重  | 
  | 阿里云检测到ECS实例的本地盘出现软硬件损坏时,立即发送该系统事件。 重要  根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。  | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间授权隔离坏盘(在线隔离,无需重启实例)。 说明  详细的运维流程说明,请参见本地盘实例运维场景③。  | 
SystemMaintenance.ReInitErrorDisk  | 因系统维护重新初始化坏盘  | 严重  | 
  | 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,并且更换了本地盘实例所在宿主机上损坏的本地盘后,立即发送该系统事件,通常在您授权隔离坏盘后五个工作日内。 重要  根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。  | 建议您选择合适的时间授权恢复本地盘(在线恢复,无需重启实例)。 说明  详细的运维流程说明,请参见本地盘实例运维场景③。  | 
SystemMaintenance.RebootAndIsolateErrorDisk  | 因系统维护重启实例并隔离坏盘  | 严重  | 
  | 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线隔离坏盘失败时,立即发送该系统事件。 重要  根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。  | 建议您选择合适的时间授权隔离坏盘,并自行重启实例(离线隔离,需要重启实例)。 说明  详细的运维流程说明,请参见本地盘实例运维场景③。  | 
SystemMaintenance.RebootAndReInitErrorDisk  | 因系统维护重启实例并重新初始化坏盘  | 严重  | 
  | 阿里云检测到ECS实例的本地磁盘出现软硬件损坏,在执行在线恢复本地盘失败时,立即发送该系统事件。 重要  根据带有本地盘的ECS实例规格不同,部分ECS实例规格需要重启并隔离受损磁盘,部分ECS实例规格支持在线隔离并修复受损磁盘。  | 建议您选择合适的时间授权恢复本地盘,并自行重启实例(离线恢复,需要重启实例)。 说明  详细的运维流程说明,请参见本地盘实例运维场景③。  | 
SystemMaintenance.StopAndRepair  | 本地盘实例原地维修事件  | 严重  | 
  | 当阿里云识别到ECS实例的底层宿主机存在硬件故障风险,在系统维护计划执行时间前48~168小时发送该系统事件。  | 建议您选择合适的时间授权维修本地盘实例或重新部署本地盘实例。 说明  详细的运维流程说明,请参见本地盘实例运维场景和系统事件。  | 
SystemMaintenance.CleanReleasedDisks  | EBS热插拔失败后的清理事件  | 警告  | 
  | 当阿里云识别到ECS实例的操作系统中存在因欠费被释放的一块或多块云盘的配置信息时,发送该系统事件。  | 建议您选择合适的时间,授权阿里云清理已释放云盘的配置信息。 重要  阿里云会在您授权的指定时间对该实例进行关机,然后对云盘进行清理,清理完成后再次开机。  | 
非预期运维事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
SystemFailure.Reboot  | 因系统错误实例重启  | 严重  | 
  | 当阿里云识别到ECS实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。  | 建议您等待实例自动重启完成,然后检查实例和应用是否正常。 重启过程中,阿里云会将该实例迁移到其他健康的宿主机上。 说明  您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。  | 
InstanceFailure.Reboot  | 实例因操作系统错误需重启  | 严重  | 
  | 当阿里云识别到ECS实例因操作系统内部出现宕机,包括OOM、蓝屏、卡死、不停打印串口日志或内核panic问题时,立即发送该系统事件。  | 建议您等待实例自动重启完成,然后检查实例和应用是否正常。 您可以开启操作系统的Kdump服务,排查崩溃原因,避免再次引发同类问题。具体操作,请参见Linux实例如何开启Kdump服务或开启Windows实例的内核转储(Kernel Memory Dump)功能。  | 
SystemFailure.Stop  | 因系统错误实例停止  | 严重  | 
  | 当阿里云识别到ECS实例因底层宿主机出现了软硬件故障(如CPU、内存硬件损坏等)被关机时,立即发送该系统事件。  | 建议您等待实例自动停止完成,然后启动实例。 启动实例时,阿里云会将该实例迁移到其他健康的宿主机上。 说明  您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。  | 
SystemFailure.Redeploy  | 因系统错误实例重新部署  | 严重  | 
  | 当阿里云识别到ECS实例因底层宿主机出现了软硬件故障需要重新部署本地盘实例时,立即发送该系统事件。 说明  仅依赖宿主机硬件的实例支持此类事件,例如挂载本地盘或支持SGX加密计算的实例。  | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式: 
 说明  您可以修改实例的维护属性,指定ECS实例遇到运维事件后的默认行为,更多信息,请参见修改实例维护属性。  | 
SystemFailure.Delete  | 因实例创建失败账单自动取消  | 严重  | 
  | 当阿里云识别到ECS实例在创建,虽然下单成功但是实例创建失败,立即发送该系统事件。  | 建议您等待系统自动释放实例,通常在创建失败五分钟内自动释放。 说明  如果您已经完成订单支付,在实例释放后会收到相应的退款。 为提高实例创建成功率,建议您: 
  | 
ErrorDetected  | 本地磁盘出现损坏告警  | 严重  | 
  | 当阿里云识别到ECS实例的本地盘出现了非预期的软硬件损坏,导致该磁盘无法正常进行读写时,立即发送该系统事件。  | 建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后选择合适的时间操作隔离坏盘并恢复本地盘。 根据实例规格的不同,支持的操作也不同,具体说明如下: 
 说明  详细的运维流程说明,请参见本地盘实例运维场景③。  | 
Stalled  | 磁盘性能受到严重影响  | 严重  | 
  | 当阿里云识别到ECS实例所挂载云盘出现IO堵塞,导致云盘性能受到严重影响,无法进行正常读写时,立即发送该系统事件。  | 建议您在应用层隔离对该云盘的读写操作,或从负载均衡实例中暂时移除该实例。  | 
实例费用事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
InstanceExpiration.Stop  | 因包年包月期限到期实例停止  | 严重  | 未定义  | 在包年包月实例到期停止前3天,发送该系统事件。  | 建议您及时续费实例,具体操作,请参见续费实例。  | 
InstanceExpiration.Delete  | 因包年包月期限到期实例释放  | 严重  | 未定义  | 在包年包月实例到期自动释放前3天,发送该系统事件。  | 建议您及时续费实例,具体操作,请参见续费实例。  | 
AccountUnbalanced.Stop  | 因账号欠费按量付费实例停止  | 严重  | 未定义  | 在按量付费实例因账号欠费停止前1小时,发送该系统事件。  | 建议您及时为账号充值,避免实例因支付方式余额不足而释放。  | 
AccountUnbalanced.Delete  | 因账号欠费按量付费实例释放  | 严重  | 未定义  | 在按量付费实例因账号欠费自动释放前3天,发送该系统事件。  | 建议您及时为账号充值,避免实例因支付方式余额不足而释放。  | 
未定义  | 因账号欠费磁盘释放  | 严重  | Disk:OverduePaymentRelease:因账号欠费磁盘释放  | 在按量付费云盘因账号欠费自动释放时,立即发送该系统事件。  | 建议您及时为账号充值,避免实例因支付方式余额不足而释放。  | 
实例因底层升级需迁移事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
SystemUpgrade.Migrate  | 实例因底层升级需迁移  | 严重  | 未定义  | 如果阿里云升级和改造物理基础设施时,可能影响对应地域和可用区中的实例,将提前向您发送该系统事件。  | 建议您登录ECS控制台查看系统事件详情,并按照提示迁移实例。具体操作,请参见实例因底层升级需迁移。  | 
突发性能实例性能受限事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
Instance:BurstablePerformanceRestricted  | 突发性能实例性能受限  | 警告  | Instance:BurstablePerformanceRestricted:突发性能实例性能受限  | 突发性能实例累积CPU积分为0时,立即发送该系统事件。  | 建议您根据需要选择一种响应方式: 
 如果您需要自定义触发通知的阈值,例如希望在累积CPU积分连续10分钟小于10时收到通知,可以在云监控控制台设置阈值报警规则。具体操作,请参见监控突发性能实例。  | 
实例安全事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
Security.DDoSDefense  | DDoS安全攻击事件  | 严重  | 
  | 当ECS实例遭受DDoS攻击,且攻击带宽<免费防御的流量阈值时(DDoS基础防护能力),阿里云会在触发流量清洗时和清洗结束后,向您发送该事件。  | 建议您在收到该事件后进行应急处理,例如,设置清洗阈值,避免使用固定阈值可能导致的误清洗。具体操作,请参见设置流量清洗阈值。 重要  如果您的正常业务流量(bps)大于黑洞阈值,请您及时提升资产规格,否则可能会被识别为异常流量导致资产进入黑洞。  | 
Security.DDoSHole  | 严重  | 
  | 当DDoS攻击的峰值带宽>ECS实例的DDoS的防御能力时,被攻击的ECS实例IP产生黑洞,阿里云会在进入黑洞时和解除黑洞后,向您发送该事件。  | 长期防护DDoS攻击是降低被攻击风险的最佳途径,针对大流量DDoS攻击,建议使用阿里云DDoS高防服务。更多详情,请参见什么是DDoS高防。  | |
SecurityPunish.Locked  | 实例被安全封禁事件  | 严重  | 
  | 当阿里云识别到您的ECS实例存在安全违规内容(包括挖矿类、欺诈类、有害信息等违规)时,将提前向您发送该系统事件。  | 建议您根据需要选择一种响应方式: 
  | 
SecurityPunish.WebsiteBanned  | 实例内网站被封禁事件  | 严重  | 
  | 当阿里云识别到您的ECS实例上存在安全违规的域名或网站时,立即封禁该网站或域名,并发送该系统事件。  | 建议您清理违规内容后申请解封,更多详细信息,请参见违规信息处罚快速解封。  | 
Security.TpmAlert  | 可信事件  | 警告  | 
  | 当阿里云识别到安全增强型实例出现可信异常时,立即发送该事件。  | 建议您登录ECS控制台查看系统事件详情,定位异常原因并处理异常。具体操作,请参见处理可信异常。  | 
状态变化事件
事件Code  | 事件名称  | 事件等级  | 云监控事件名称  | 事件说明和影响  | 用户侧处理建议  | 
Instance:PreemptibleInstanceInterruption  | 抢占式实例中断通知  | 警告  | Instance:PreemptibleInstanceInterruption:抢占式实例中断通知  | 在抢占式实例被回收前5分钟发送该系统事件。  | 建议您: 
  | 
Instance:ModifyInstanceSpec.Reboot  | 实例因规格变更需重启生效  | 严重  | 
  | 在实例规格发生变更之后,需要通过重启实例来使新规格配置生效。在新订单生效后7天内,如用户未主动进行实例重启,系统会强制重启实例,将实例规格变更为预期规格。  | 建议您:  | 
Instance:PerformanceModeChange  | 突发性能实例性能模式切换  | 警告  | Instance:PerformanceModeChange:突发性能实例性能模式切换  | 在突发性能实例从无性能约束模式切换为性能约束模式、或者从性能约束模式切换为无性能约束模式时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Instance:StateChange  | 实例状态改变通知  | 信息  | Instance:StateChange:实例状态改变通知  | 在实例状态发生改变时,例如从运行中变为停止中、从停止中变为已停止,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Instance:AutoReactivateCompleted  | 完成自动重开机  | 信息  | Instance:AutoReactivateCompleted:完成自动重开机  | 在您结清了欠费账单且实例完成自动重启时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Instance:LiveMigrationAcrossDDH  | 实例在专有宿主机间热迁移  | 信息  | Instance:LiveMigrationAcrossDDH:实例在专有宿主机间热迁移  | 在实例发生热迁移时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Disk:DiskOperationCompleted  | 磁盘操作完成  | 信息  | Disk:DiskOperationCompleted:磁盘操作完成  | 在手动挂载或卸载了按量付费磁盘时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Disk:ConvertToPostpaidCompleted  | 转换磁盘到按量付费完成  | 信息  | Disk:ConvertToPostpaidCompleted:转换磁盘到按量付费完成  | 在包年包月磁盘转换为按量付费磁盘时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Snapshot:CreateSnapshotCompleted  | 磁盘快照创建完成  | 信息  | Snapshot:CreateSnapshotCompleted:磁盘快照创建完成  | 在磁盘的快照创建完成时,产生该系统事件。  | 建议您根据需要判断是否关注该系统事件,如需关注可以在云监控控制台设置事件通知。具体操作,请参见订阅ECS系统事件通知。  | 
Snapshot:SnapshotDeleted  | 快照删除完成事件  | 信息  | Snapshot:SnapshotDeleted:快照删除完成事件  | 在手动快照或自动快照删除完成时,产生该系统事件。  | 无  |