RDS Custom系统事件汇总

本文汇总了RDS Custom支持的系统事件(包括计划内运维事件、非预期运维事件等),并为各系统事件提供处理建议。

RDS Custom事件Code和云监控事件名称的格式

为了便于您通过系统事件建立自动化运维机制,RDS Custom系统事件会同步至云监控(CloudMonitor),同一事件的RDS Custom事件Code、云监控事件名称遵循了一定的命名格式,格式如下:

  • RDS Custom事件Code:包括事件起因、对资源的影响的信息,格式为<事件起因>.<对资源的影响>

  • 云监控事件名称:包括资源类型、事件起因、对资源的影响、事件状态的信息,格式为<资源类型>:<事件起因>.<对资源的影响>:<事件状态>

说明

并非所有RDS Custom事件Code和云监控事件名称都会包括所有信息,例如云监控事件名称Disk:ErrorDetected:Executing代表磁盘已经出现损坏,因此无需包括对资源后续影响的信息。

计划内运维事件

重要

在实例操作系统内部进行重启操作时,无法使事件对应的维护动作生效。因此,本文涉及的重启实例操作指的是通过RDS Custom控制台或调用API方式进行,具体操作,请参见重启实例RebootRCInstance

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

SystemMaintenance.Reboot

因系统维护实例重启

严重

  • Instance:SystemMaintenance.Reboot:Inquiring:因系统维护实例需重启问询中

  • Instance:SystemMaintenance.Reboot:Scheduled:因系统维护实例重启计划中

  • Instance:SystemMaintenance.Reboot:Executing:因系统维护实例重启执行中

  • Instance:SystemMaintenance.Reboot:Executed:因系统维护实例重启已完成

  • Instance:SystemMaintenance.Reboot:Avoided:因系统维护实例重启已规避

  • Instance:SystemMaintenance.Reboot:Failed:因系统维护实例重启失败

  • Instance:SystemMaintenance.Reboot:Canceled:因系统维护实例重启已取消

阿里云检测到RDS Custom实例所在的底层宿主机存在潜在的软硬件故障风险,该风险会导致RDS Custom实例重启,且该风险尚未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。

说明

故障风险包括:

  • 类型1:宿主机存在隐患风险

  • 类型2:实例GPU设备不可用

手动重启实例

说明

建议您关注事件的状态变化,如果重启实例后事件的状态没有发生变化,说明该事件响应失败,风险还未解除,建议您稍后选择一个合适的时间(建议与本次操作间隔12小时以上)重启实例,以规避该风险。

SystemMaintenance.Stop

因系统维护实例停止

严重

  • Instance:SystemMaintenance.Stop:Scheduled:因系统维护实例停止计划中

  • Instance:SystemMaintenance.Stop:Executing:因系统维护实例停止执行中

  • Instance:SystemMaintenance.Stop:Executed:因系统维护实例停止已完成

  • Instance:SystemMaintenance.Stop:Avoided:因系统维护实例停止已规避

  • Instance:SystemMaintenance.Stop:Failed:因系统维护实例停止失败

  • Instance:SystemMaintenance.Stop:Canceled:因系统维护实例停止已取消

阿里云检测到RDS Custom实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致RDS Custom实例关机并停止,且该风险尚未直接成为故障,在系统维护计划执行前的24~48小时内发送该系统事件。

手动重启实例

SystemMaintenance.Redeploy

因系统维护实例重新部署

严重

  • Instance:SystemMaintenance.Redeploy:Inquiring:因系统维护实例需重新部署问询中

  • Instance:SystemMaintenance.Redeploy:Scheduled:因系统维护实例重新部署计划中

  • Instance:SystemMaintenance.Redeploy:Executing:因系统维护实例重新部署执行中

  • Instance:SystemMaintenance.Redeploy:Executed:因系统维护实例重新部署已完成

  • Instance:SystemMaintenance.Redeploy:Avoided:因系统维护实例重新部署已规避

  • Instance:SystemMaintenance.Redeploy:Canceled:因系统维护实例重新部署已取消

阿里云检测到RDS Custom实例的底层宿主机存在潜在的软硬件故障风险,该风险会导致RDS Custom实例重新部署,且该风险尚未直接成为故障,在系统维护计划执行时间前24~48小时发送该系统事件。

重要

使用了本地SSD盘或者本地HDD盘的实例会重新初始化数据盘,本地盘上的数据会被清空。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:

说明

建议您关注事件的状态变化,如果重新部署实例后事件的状态没有发生变化,说明该事件响应失败,风险还未解除,建议您稍后选择一个合适的时间(建议与本次操作间隔12小时以上)重新部署,以规避该风险。

SystemFailure.Redeploy

因系统错误实例重新部署

严重

  • Instance:SystemFailure.Redeploy:Inquiring:因系统错误实例需重新部署问询中

  • Instance:SystemFailure.Redeploy:Executing:因系统错误实例重新部署执行中

  • Instance:SystemFailure.Redeploy:Executed:因系统错误实例重新部署已完成

  • Instance:SystemFailure.Redeploy:Avoided:因系统错误实例重新部署已规避

  • Instance:SystemFailure.Redeploy:Canceled:因系统错误实例重新部署已取消

当阿里云识别到RDS Custom实例因底层宿主机出现了软硬件故障需要重新部署本地盘实例时,立即发送该系统事件。

说明

仅依赖宿主机硬件的实例支持此类事件,例如挂载本地盘或支持SGX加密计算的实例。

建议您完成准备工作,包括修改/etc/fstab配置文件、备份数据等,然后根据需要选择一种响应方式:

SystemMaintenance.CleanReleasedDisks

实例需清理已释放云盘的配置信息

警告

  • Instance:SystemMaintenance.CleanReleasedDisks.Inquiring:实例需清理已释放云盘的配置信息问询中

  • Instance:SystemMaintenance.CleanReleasedDisks.Executing:实例需清理已释放云盘的配置信息执行中

  • Instance:SystemMaintenance.CleanReleasedDisks.Executed:实例需清理已释放云盘的配置信息已完成

  • Instance:SystemMaintenance.CleanReleasedDisks.Failed:实例需清理已释放云盘的配置信息已失败

当阿里云识别到RDS Custom实例的操作系统中存在因欠费被释放的一块或多块云盘的配置信息时,发送该系统事件。

建议您选择合适的时间,授权阿里云清理已释放云盘的配置信息。

重要

阿里云会在您授权的指定时间对该实例进行关机,然后对云盘进行清理,清理完成后再次开机。

非预期运维事件

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

SystemFailure.Reboot

因系统错误实例重启

严重

  • Instance:SystemFailure.Reboot:Executing:因系统错误实例重启开始

  • Instance:SystemFailure.Reboot:Executed:因系统错误实例重启结束

  • Instance:SystemFailure.Reboot:Failed:因系统错误实例重启失败

当阿里云识别到RDS Custom实例因底层宿主机出现了非预期的软硬件故障(如CPU、内存硬件损坏等)被重启时,立即发送该系统事件。

建议您等待实例自动重启完成,然后检查实例和应用是否正常。

重启过程中,阿里云会将该实例迁移到其他健康的宿主机上。

InstanceFailure.Reboot

实例因操作系统错误需重启

严重

  • Instance:InstanceFailure.Reboot:Scheduled:实例因操作系统错误需重启计划中

  • Instance:InstanceFailure.Reboot:Executing:实例因操作系统错误需重启开始

  • Instance:InstanceFailure.Reboot:Executed:实例因操作系统错误需重启结束

  • Instance:InstanceFailure.Reboot:Avoided:实例因操作系统错误需重启已规避

当阿里云识别到RDS Custom实例因操作系统内部出现宕机,包括OOM、蓝屏、卡死、不停打印串口日志或内核panic问题时,立即发送该系统事件。

建议您等待实例自动重启完成,然后检查实例和应用是否正常。

您可以开启操作系统的Kdump服务,排查崩溃原因,避免再次引发同类问题。具体操作,请参见Linux实例如何开启Kdump服务

SystemFailure.Stop

因系统错误实例停止

严重

  • Instance:SystemFailure.Stop:Executing:因系统错误实例开始停止

  • Instance:SystemFailure.Stop:Executed:因系统错误实例已停止

当阿里云识别到RDS Custom实例因底层宿主机出现了软硬件故障(如CPU、内存硬件损坏等)被关机时,立即发送该系统事件。

建议您等待实例自动停止完成,然后启动实例。

启动实例时,阿里云会将该实例迁移到其他健康的宿主机上。

SystemFailure.Delete

因实例创建失败账单自动取消

严重

  • Instance:SystemFailure.Delete:Executing:因实例创建失败账单开始自动取消

  • Instance:SystemFailure.Delete:Executed:因实例创建失败账单已自动取消

  • Instance:SystemFailure.Delete:Avoided:因实例创建失败账单自动取消已规避

当阿里云识别到RDS Custom实例在创建,虽然下单成功但是实例创建失败,立即发送该系统事件。

建议您等待系统自动释放实例,通常在创建失败五分钟内自动释放。

说明

如果您已经完成订单支付,在实例释放后会收到相应的退款。

InstanceFailure.PerformanceImpact

因实例错误实例性能受损

警告

  • Instance:InstanceFailure.PerformanceImpact:Executing

  • Instance:InstanceFailure.PerformanceImpact:Executed

实例内部发生了不可预期的异常(例如GuestOS内核hang),导致该实例的性能受损时,立即发送该系统事件。

建议您登录实例定位异常原因并处理异常,处理异常后关注该系统事件的状态。如果该系统事件不再持续报出,代表已消除性能受损。

相关文档

RDS Custom简介