系统事件是影响实例运行状态的有计划或非预期事件。特指因探测到更新维护、违规操作、系统故障、软硬件故障、因预付费即将到期或账号欠费时,发生的重启、停止或者释放 ECS 实例等操作的事件。

概述

实例是您构建业务应用的核心基础组件,当您完成了实例选型、购买、初始化配置并开始部署业务后,实例的健康状态对于您的业务连续性和系统可靠性有关键作用。为提升系统可靠性、系统性能和安全防护能力,ECS 会主动对实例所宿的物理服务器做日常维护并修复潜在的系统故障。当探测到物理服务器出现故障或者隐患时,ECS 将实例在线热迁移到健康的服务器,以保持实例的健康运行状态。这些维护是日常维护。日常维护有别于系统事件,日常维护通常是无感知完成的,不会发送维护通知,也不对实例造成影响。

发生系统事件时,ECS 及时给您发送通知、应对措施和事件周期等信息。对于有计划的系统事件,会提前告知该事件对实例的影响和预计执行时间点等信息。您可以在执行系统事件之前及时备份数据、做好应用层面的准备进而防备对业务的可靠性和连续性的潜在影响。对于已处理的系统事件,您可以查询过去两个月内实例的历史系统事件,获取故障诊断和复盘分析数据。

使用限制

除已停售的实例规格族之外,例如 sn2、sn1、t1、s1、s2、s3、m1、m2、c1、c2、c4、ce4、cm4、n1、n2、e3 等,所有的实例规格族均支持系统事件功能。更多详情,请参阅 实例规格族

事件类型

系统事件类型如下表所示。

类别 事件类型 对应参数
实例重启 因系统维护实例重启 SystemMaintenance.Reboot
实例异常重启 因系统错误实例重新启动 SystemFailure.Reboot
因实例错误实例重启 InstanceFailure.Reboot
实例停止 因预付费期限到期实例停止 InstanceExpiration.Stop
因账号欠费按量付费资源停止 AccountUnbalanced.Stop
实例释放 因预付费期限到期实例释放 InstanceExpiration.Delete
因账号欠费按量付费资源释放 AccountUnbalanced.Delete

事件状态

系统事件的生命周期中,有如下事件状态。

事件状态 状态属性 状态描述
待执行 中间状态 系统事件已发生,但尚未执行
已避免 稳定状态 您在 用户操作窗口期 内提前操作,避免了系统事件在计划时间点执行
执行中 中间状态 正在执行系统事件
已执行 稳定状态 系统事件已完成
已取消 稳定状态 ECS主动取消了已计划的系统事件
失败 稳定状态 系统事件执行失败

事件窗口

系统事件有如下窗口期:

  • 用户操作窗口期:系统事件计划发起到执行之间的时间段。通常系统维护相关事件用户操作窗口期为 24~48 小时,预付费实例即将到期而停止的操作窗口期为 3 天,账号欠费而停止的操作窗口期通常小于 1 小时。因计费问题引发系统事件实例会被立刻停止、实例会在 15 天后被释放。

    您可以根据该事件对业务的影响情况,选择推荐的应对方式提前修复系统事件,或者等待执行默认应对动作。对于 ECS 主动修复系统故障触发的系统事件,ECS 根据系统维护操作计划安排提前一段时间向您发送事件通知。

  • 事件执行窗口期:若您没有提前应对系统事件,修复故障类系统事件通常会在进入事件执行窗口期的 6 小时内自动完成。随后您会收到系统事件的执行结果。

    说明 对于突发故障或者违规操作等非技术因素导致的非预期系统事件,通常不会存在 用户操作窗口期,只有短暂的 事件执行窗口期。您可以查询历史系统事件用于故障诊断、原因分析或数据复原。

查看系统事件

如果存在有计划的系统事件,ECS 控制台 待处理事件 按钮上会出现显著标示提醒您查看。

  1. 登录 ECS管理控制台
  2. 在左侧导航栏里,单击概览
  3. 概览 页的常用操作区域,单击待处理事件
  4. 单击系统计划事件页面,您可以看到实例 ID、地域、实例运行状态、事件类型、推荐操作等相关信息。您可以在操作列执行需要的操作。

API 操作:DescribeInstancesFullStatus 查询实例的系统事件。

查看历史系统事件

在全部事件页面,您可以查看过去两个月内发生的全部系统事件记录,为故障诊断和复盘分析提供数据支撑。

  1. 登录 ECS管理控制台
  2. 在左侧导航栏里,单击 概览
  3. 概览 页的常用操作区域,单击 待处理事件
  4. 在左侧导航栏中,单击 全部事件。在 全部事件 页面,单击 系统计划事件 > 实例,查看实例 ID、事件类型和事件状态等相关信息。

API 操作:DescribeInstanceHistoryEvents 查询历史系统事件。

订阅事件通知

所有系统事件均可以通过云监控配置报警规则,当事件发生时会及时通知您。更多详情,请参阅 云监控 文档 云产品系统事件监控

应对建议

您可以通过控制台操作或者 API 调用应对系统事件。从系统事件出发管理 ECS,可以提高您对 ECS 的底层感知能力,优化 ECS 实例运维。

事件类型 对实例影响 建议措施
因系统维护实例重启 实例将在计划维护时间重新启动 在用户操作窗口期某个合适的时间点选择以下任一种方法:
  • ECS控制台 重启实例

  • 调用 API RebootInstance

    说明 在实例内部重启无法应对系统事件。
  • 在应用层面,切换流量。或从 负载均衡 实例中移除有计划维护的 ECS 实例,避免影响您的业务。

并视情况为实例挂载的磁盘 创建快照CreateSnapshot)备份数据。
因系统错误实例重启 发生非预期的宿主机故障时,实例重启后会重新响应 当您收到事件通知时,实例正在或已完成重新启动,建议您:
  • 验证实例和应用是否恢复正常。

  • 订阅事件 通知到您的消息服务 MNS 队列或主题,联动切换流量或实现负载均衡,实现故障转移。

因实例错误实例重启 因操作系统崩溃实例重新启动 当您收到事件通知时,实例正在或已完成重新启动,建议您:
  • 查看实例 系统日志和屏幕截图 排查故障,检查操作系统发生崩溃的原因,避免再次引发系统崩溃问题。

  • 验证实例和应用是否恢复正常。

因预付费实例到期停止 预付费资源即将被停止 建议您根据需要 续费资源,或等待实例过期。
因账号欠费后按量付费资源停止 按量付费资源即将被停止

建议您及时 为账号充值,避免因账号余额不足而停止实例。

因预付费实例到期释放 预付费资源即将被释放 建议您根据需要 续费资源,或等待实例释放。
因账户欠费后按量付费资源释放 按量付费资源即将被释放

建议您及时 为账号充值,避免因账号余额不足而释放实例。