当ECS实例的本地磁盘因硬件故障、数据异常等原因导致无法正常读写时,阿里云会向您发送本地盘受损事件,您可以通过控制台或者OpenAPI等方式对损坏的本地盘进行隔离或修复等操作。
操作流程
修改配置文件:对于Linux系统实例,需要登录实例内部修改操作系统内的/etc/fstab配置文件,卸载(即umount)损坏的本地盘设备,避免更换磁盘操作导致读写错误磁盘的风险。
隔离已损坏的磁盘:对损坏的本地盘进行隔离,隔离后,实例可以继续正常使用。
更换磁盘:阿里云对损坏的磁盘进行更换。
恢复磁盘:登录ECS实例修改操作系统内的/etc/fstab配置文件,挂载(即mount)新的本地盘设备。
目前仅大数据型实例规格族d1、d2、d3系列和本地SSD型实例规格族i4支持在线隔离换盘,本地SSD型实例规格族i3、i2支持隔离本地盘,不支持更换本地盘。此外,是否需要隔离或恢复本地盘,受到本地盘损坏程度的影响,实际请以页面显示流程为准。
操作步骤
修改配置文件(仅Linux)
并非所有的实例都需要修改配置文件,如果您的实例操作系统不属于Linux系统请跳过此步骤,如果您的实例操作系统属于Linux
系统,在隔离损坏本地盘之前,需要在操作系统内部修改/etc/fstab文件并卸载损坏的本地盘:
隔离已损坏的磁盘
控制台操作
访问ECS控制台-事件。
在事件页面左侧导航栏,单击
,在目标事件操作列单击修复磁盘。在修改配置阶段,确认已完成修改配置文件后,单击下一步。
在隔离坏盘阶段,单击隔离。等待隔离完成,如果您的引导页面出现重启阶段,则需要进行重启。
说明如果几分钟后仍然没有进入下一阶段,您可尝试刷新页面。
API操作
查询系统事件。
调用DescribeInstanceHistoryEvents查询指定地域下问询中(
Inquiring
)状态的系统事件,并记录返回的事件ID(EventId
)和事件名称(Name
)。授权并执行隔离已损坏的磁盘。
调用AcceptInquiredSystemEvent授权阿里云对损坏的磁盘进行隔离操作。
重启实例后,被隔离的受损本地盘暂时变为1 MiB的Dummy硬盘。您需要在应用层持续隔离受损本地盘的读写操作和/etc/fstab文件中的nofail和barrier
设置。
更换磁盘
您无需进行操作,请等待阿里云更换损坏的本地盘,更换操作预计在五个工作日内完成,您可以在本地盘事件页面中查看处理进度。
恢复磁盘
控制台操作
当事件进度变为待恢复时,表示事件处于恢复磁盘阶段,单击操作列中的修复磁盘,然后在弹窗中单击恢复磁盘按钮。
如果您的引导页面出现重启阶段,则需要进行重启。
当事件进度变为事件已处理时,表示事件已经处理完毕。
API操作
查询系统事件。
调用DescribeInstanceHistoryEvents查询系统事件。阿里云完成磁盘更换后会发布
SystemMaintenance.ReInitErrorDisk
或SystemMaintenance.RebootAndReInitErrorDisk
事件,授权恢复磁盘。
调用AcceptInquiredSystemEvent授权执行恢复磁盘操作。
后续步骤
磁盘修复后,请您检查ECS实例和本地盘状态。此时被更换的本地盘为新盘,需要初始化后才可使用。具体操作,请参见初始化数据盘(Windows)或初始化数据盘(Linux)。