应急预案:专有云环境盘古abnchunk的处理方法

应急预案:专有云环境盘古abnchunk的处理方法

更新时间:2020-06-09 10:28:51

1. 概述

本文介绍在盘古系统中,出现abnchunk却无法恢复正常的处理方法。

1.1. 适用范围

  • 专有云V2企业版,盘古
  • 专有云V3企业版,盘古
    说明:适用于ChunkServer机器为4台规模小集群,其它规模的集群不适用此方案,请联系阿里云技术支持。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 业务影响:否
  • 风险等级:中

2. 问题描述

专有云部分集群的ChunkServer数量很少(只有四台,比如tianji集群),可能会造成类型为小于最小副本数(lessmin)的abnchunk无法恢复正常。原因是LogFile的Chunk出现版本两高两低,或者机器异常掉电等原因导致Chunk写坏,变成无效副本 。如果文件的拷贝数目是(3,3),这种情况下有效副本数是两份,无效副本也是两份,在副本未达到安全的情况下(副本数小于lessmin),无效副本无法删除,又没有新的ChunkServer可以复制有效副本,造成lessmin的副本一直存在。

3. 解决方案

详情请参见以下KB文档。

  • KB 71919 通用方案:专有云环境盘古abnchunk的处理方法