应急预案:盘古汇聚控制台中普通磁盘维修方法

应急预案:盘古汇聚控制台中普通磁盘维修方法

更新时间:2020-06-09 10:27:59

1. 概述

本文主要介绍在盘古中数据磁盘出现坏盘情况后的处理方法。

1.1. 适用范围

  • 专有云V2企业版,盘古
  • 专有云V3企业版,盘古

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 业务影响:否
    说明
    • 维修过程中需要重启pangu_chunkserver进程,会导致IO抖动,因此需要控制维修节奏。
    • 对ots_inner集群中的盘古普通盘更换时,会影响到galaxy_inner集群。
  • 风险等级:低
    说明
    • 只能对/apsarapangu/disk*目录下的普通磁盘维修,不能对/apsarapangu/SSDCache*目录下SSDCache磁盘维修。
    • 只能维修盘古已经判定损坏的盘。通过执行puadmin lscs命令,获取到状态为DISK_ERROR,且Backup为Done即为坏盘。
    • 如果在集群AG中执行puadmin lscs命令后,获取不到关于坏盘的信息,则不使用本方案,请参见以下KB文档。
      KB 71921 通用方案:专有云盘古普通磁盘维修
    • 如果需要维修第二个坏盘,请等待至少10分钟。
    • 如果磁盘更换后,磁盘依然为error状态,请联系阿里云技术支持。
    • 请在数据安全性检查通过的情形下执行换盘操作。

2. 问题描述

在专有云环境中,盘古作为底层的存储系统,存储了较高数量级的数据磁盘。当数据磁盘有正常的损耗时,会出现坏盘的情况。

3. 解决方案

详情请参见以下KB文档。

  • KB 121118 通用方案:盘古汇聚控制台中普通磁盘维修方法