在托管ECS实例的底层硬件意外崩溃的情况下,阿里云通常会在一分钟内确认故障是否不可逆转并且实例是否无法修复,并大约在五分钟内自动重新启动实例,实现宕机迁移。恢复可用性的实例的元数据保持不变,例如实例ID以及私有IP地址和公网IP地址等。

恢复方式

ECS实例在发生物理机非预期宕机或进行主动运维时,阿里云默认自动重启恢复您的ECS实例,并且支持自定义恢复方式,如下所示。

恢复方式 方式说明 系统事件取值 实例不带本地存储 * 实例带本地存储,或支持SGX加密计算 **
(默认)自动重启恢复 实例自动恢复,并恢复之前的生命周期状态。 SystemFailure.Reboot 支持 支持
禁止重启恢复 恢复后实例保持已停止状态。适用于在应用层已经设定故障转移或节点切换等机制的场景,避免实例自动重启恢复后产生服务冲突等影响。 SystemFailure.Stop 支持 支持
自动重新部署 涉及实例挂载的本地盘重新部署,本地盘数据会被清空,SGX加密拓展会被重置。 SystemFailure.Redeploy 不适用 支持

* 指不带有本地存储的实例规格族,例如g系列,c系列,r系列实例规格族等。详情请参见实例规格族

** 包含以下实例规格族:
  • 带有本地存储的实例规格族,例如d系列、i系列、gn5系列实例规格族等。
  • 支持Intel ® SGX加密计算的实例规格族,例如高主频型弹性裸金属服务器ebmhfg5实例规格族等。

使用限制

  • 您可以选择如何自动恢复ECS实例,但无法自行干预正在进行的恢复事件。
  • 实例自动恢复期间,您无法自行重启实例。

提高容错率

若需充分利用实例的自动恢复功能和故障转移操作,请确保您完成了以下操作:

  • 将您的核心应用程序(例如SAP HANA)添加到自启动项列表中,避免业务操作的任何中断。
  • 开启应用程序的自动重新连接功能。例如,允许应用程序自动连接到MySQL、SQL Server或Apache Tomcat。
  • 如果您同时使用了负载均衡服务,请将多台ECS实例部署在集群环境中,当某一台ECS实例处于自动恢复过程中时,其余ECS实例可以继提供业务访问能力。
  • 定期备份本地盘上的数据,以实现数据冗余和提供实例重新部署的数据文件。

相关操作