更新时间:2020-12-30 11:04
本文主要介绍在盘古中数据磁盘出现坏盘情况后的处理方法。
方案总览
类别 | 内容 |
风险等级(方案执行的影响) | 低 |
操作方式 | 白屏 |
操作复杂度 | 低 |
预估执行时长 | N/A |
客户业务的影响 | 无 |
可监控性 | 支持 |
有效性(重启、重拉、补丁、升级、扩容等配置是否丢失) | 固化 |
数据修订(变更是否涉及增删改操作) | 无 |
执行灰度策略 | 请向产品侧咨询,明确灰度策略 |
首次发布时间 | N/A |
预计完成时间 | N/A |
说明:
- 适用于专有云V2所有版本,且盘古版本为0.14和0.15.3。
- 适用于专有云V3所有版本,且盘古版本为0.16、0.16.1、0.16.2。
/apsarapangu/disk*
目录下的普通磁盘维修,不能对/apsarapangu/SSDCache*
目录下SSDCache磁盘维修。puadmin lscs
命令,获取到磁盘状态为DISK_ERROR且Backup为Done,即判定为坏盘。puadmin lscs
命令后,获取不到关于坏盘的信息,则不使用本方案,请参见以下KB文档。在专有云环境中,盘古作为底层的存储系统,存储了较高数量级的数据磁盘。当数据磁盘有正常的损耗时,会出现坏盘的情况。
如下是数据安全性检查的操作步骤。
注意:如果存在任意一种Abnormal Chunk,请终止操作并联系阿里云技术支持。
ls -l /apsarapangu/PanguCsDiskStatusdisk[$Disk_ID]
说明:[$Disk_ID]为磁盘ID。系统返回类似如下。
说明:请确保该文件创建于一天之前,并且满足用户告知第二条的条件,才可以进行更换磁盘的操作。如果不满足这两个条件中的任意一个,请终止操作并联系阿里云技术支持。
登录Pangu Portal,单击磁盘维修>普通磁盘更换,确保三种类型的Abnormal Chunk都不存在,即存在的个数为0,数据安全检查通过后,单击下一步。
说明:如果Abnormal Chunk存在,请终止操作并联系阿里云技术支持。
在请输入 CS IP框中输入损坏磁盘所在Chunk Server的IP,在请输入 DISK ID框中输入损坏磁盘的ID。然后单击umount磁盘。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
sudo lsscsi系统显示类似如下。
说明:图中第三列的数字表示该磁盘对应的盘位。
lsscsi
命令后获取的编号可能会超过盘位号,因此可以通过简单的读写测试确定坏盘位置。首先进入/apsarapangu/disk*
目录,执行以下命令。dd oflag=direct if=/dev/zero of=0123456789_wtest_for_find_disk bs=64k count=100k
注意:在对磁盘进行写入时,服务器面板的磁盘对应的指示灯会常亮,只需对每个磁盘逐一测试即可。由于已经取消挂载坏盘,坏盘无法进行读写测试,当所有磁盘测试完毕后,剩下的指示灯未亮的就是坏盘。
sudo fdisk -l系统返回类似如下,图中没有分区的磁盘即为新换的磁盘。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
等待上一步执行完毕后,单击mount磁盘。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
之前的操作没有报错或者提示的情况下会进入磁盘上线的操作,单击下一步。
注意:操作后如果没有报错提示,则为正常现象,请耐心等待,不要重复操作。
puadmin fs -abnchunk -t lessmin
磁盘硬件损坏,无法回滚。
在文档使用中是否遇到以下问题
更多建议
匿名提交