本文介绍ECS实例的自动恢复事件如何改善您使用阿里云ECS时的运维效率和整体体验。

什么是实例自动恢复事件

在托管ECS实例的底层硬件意外崩溃的情况下,如果确认故障不可逆转并且实例无法修复,则系统将自动重新启动实例,实现宕机迁移。在这种情况下,所恢复实例的所有实例元数据都将保持不变,例如实例ID以及私有和公网IP地址等。

自动恢复是异常类系统事件,其事件代码为SystemFailure.Reboot。自动恢复事件不需要您自行操作。下表区分了自动恢复与其他类型的运维事件:

运维事件类型 是否可以查询运维计划 是否可以人工干预
自动恢复
非异常类系统事件

使用限制

  • 实例自动恢复期间,您无法自行重启实例。
  • 如果您使用的是本地盘实例,在实例宿主机发生意外崩溃但原宿主机可以自行重启恢复时,本地盘实例方可自动恢复,本地盘数据会被保留。若宿主机无法自行重启恢复,本地盘实例需要被重新部署到其他健康宿主机来恢复实例的可用性,本地盘数据会被清除。本地盘实例发生运维事件时,您可以提交工单查询本地盘数据恢复情况。

查看实例自动恢复事件

本文示例通过阿里云CLI调用DescribeInstanceHistoryEvents查看实例是否有执行中或已执行。有关如何使用其他开发者工具调用API,请参见ECS API快速入门

aliyun ecs DescribeInstanceHistoryEvents --RegionId TheRegionId --InstanceId YourInstanceId --InstanceEventCycleStatus.1=Executing --InstanceEventCycleStatus.2=Executed --InstanceEventType.1=SystemFailure.Reboot

有关如何使用ECS控制台查看自动恢复事件,请参见系统事件

提高容错率

若需充分利用实例的自动恢复功能和故障转移操作,请确保您完成了以下操作:

  • 将您的核心应用程序(例如SAP HANA)添加到自启动项列表中,避免业务操作的任何中断。
  • 开启应用程序的自动重新连接功能。例如,允许应用程序自动连接到MySQL、SQL Server或Apache Tomcat。
  • 对于负载均衡用户,请将多台ECS实例部署在集群环境中,当某一台ECS实例处于自动恢复过程中时,其余ECS实例可以继提供业务访问能力。
  • 定期备份本地盘上的数据,以实现数据冗余和提供实例重新部署的数据文件。