应急预案:专有云V3环境中RDS MySQL物理机“/u02”磁盘空间占满的处理方法

1. 概述

本文主要介绍专有云V3环境中,RDS MySQL物理机“/u02”磁盘空间占满的应急处理方法。

1.1. 适用范围

  • 专有云V3,RDS

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L3(产品研发工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 预估执行时长:10分钟
  • 业务影响:否
  • 风险等级:中

2. 问题描述

物理机上存在某个实例主备复制异常,导致slave-relay.xxx类型的日志和slave-relay-__@0023alibaba_rds_sync_channel@类型的日志堆积,物理机/u02磁盘空间被占满。

3. 解决方案

3.1. 环境检查

  1. 登录对应的物理机,查看具体是那个端口的实例占满/u02磁盘。查看返回占用空间最多的目录,即为该实例所占满了空间。
    cd /u02
    du -sh *
    说明:返回结果中目录类似data[$Port][$Port]即为实例端口号。
  2. 执行以下命令,进入占用空间最多的目录。
    cd data[$Port]
  3. 执行以下命令,查看具体是什么文件占用了空间。
    du -sh *
    检查是否为slave-relay.xxx或者slave-relay-__@0023alibaba_rds_sync_channel@类型的日志堆积过多占满了空间,如果是,请根据以下步骤操作。

3.2. 实施步骤

  1. 登录RDS运维管理控制台(杜康),单击主机管理,根据主机IP和端口号找到相应的实例。
  2. 单击对应的IP地址,进入主机信息页面,查看实例是否为slave角色的实例。如果是,请根据以下步骤操作。
    1. 登录对应的物理机,依次执行以下命令,手动删除比较老(时间较久)的slave-relay.xxxslave-relay-__@0023alibaba_rds_sync_channel@日志,释放空间。
      cd /u02/data[$Port]/
      rm -rf slave-relay.xxx
      rm -rf slave-relay-__@0023alibaba_rds_sync_channel@xxx
    2. 删除Slave实例上的slave-relay日志之后,请参见通用方案:专有云环境中RDS备库的重新搭建,进行备库重搭即可。

3.3. 结果验证

登录对应的物理机,查看u02空间是否正常。

4. 回滚方案

无需回滚。