通用方案:专有云V2环境中如何调整盘古日志轮转策略

通用方案:专有云V2环境中如何调整盘古日志轮转策略

更新时间:2020-06-08 21:08:10

1. 概述

本文主要介绍专有云V2环境中,调整盘古日志轮转策略的方法。

1.1. 适用范围

  • 专有云V2,盘古

1.2. 用户告知

  • 操作复杂度:低
  • 风险等级:低
    说明
    • 该方案属于变更操作,需提交变更流程,审批通过方可进行程后续操作。
    • 该方案仅供在未丢失数据的情况下变更,如abnchunk丢失,请先修复完成方可进行后续操作。
    • 日志保存数量太多会影响后续问题的排查。
  • 本文档为通用方案,本文以pangu_chunkserver为例,如果需要调整pangu_master的相关日志,只需把pangu_chunkserver相关字样、路径等信息替换为pangu_master的信息即可。

2. 问题描述

盘古日志文件数量过多,占用磁盘空间较大,需要调整MaxLogFileNum的值降低日志文件对磁盘的使用率。

3. 解决方案

3.1. 环境检查

检查abnchunk是否存在

如果项目的部署中有Pangu Portal,请参见Web界面操作,如无Pangu Portal,请参见命令行操作

Web界面操作
  1. 通过以下地址登录盘古汇聚控制台,如果要进入某个集群的Pangu Portal,单击对应集群右侧的详情
    http://[$IP]:8620/
    说明:[$IP]为DMSAG的IP地址。
    1559787386482-9fe39ad3-2ed0-4b08-ab63-337538397a57.png
  2. 进入集群的Pangu Portal界面,选择数据管理>数据安全,abnchunk个数均为0,表示正常,若不为0,请终止操作,联系阿里云技术支持,处理abnchunk。
命令行操作
  1. 登录集群AG,执行以下命令,查看none级别的abnchunk。

    /apsara/deploy/puadmin fs -abnchunk -t none

    系统显示类似如下,确认不存在none级别的abnchunk。

  1. 执行以下命令,查看onecopy级别的abnchunk。

    /apsara/deploy/puadmin fs -abnchunk -t onecopy

    系统显示类似如下,确认不存在onecopy级别的abnchunk。

  2. 执行以下命令,查看lessmin级别的abnchunk。

    /apsara/deploy/puadmin fs -abnchunk -t lessmin

    系统显示类似如下,确认不存在lessmin级别的abnchunk。

检查集群服务数量

Web界面操作

选择集群大盘>Chunkserver运维,即可看到Chunkserver节点的数量,单击绿色箭头,即可看到Chunkserver节点的详情信息。

image.png

命令行操作

登录集群AG,执行以下命令,查看集群中服务器的数量。

/apsara/deploy/puadmin lscs |grep ttl

系统显示类似如下。

查看apsara_log_conf.json配置文件的参数

登录集群AG,执行以下命令,查看apsara_log_conf.json配置文件的参数。

more /apsara/pangu_chunkserver/apsara_log_conf.json

系统显示类似如下。

3.2. 实施步骤

通过沉香修改配置

  1. 登录集群AG,执行以下命令,获取集群名称。

    me|grep Local_cluster

    系统显示类似如下。

     

  2. 登录沉香管理控制台,左侧导航栏中选择对应集群,选择pangu_chunkserver_apsara_log_conf.json配置文件,进行修改。

    1529032208546-fc8accc4-8078-49e7-92fb-4474da941452.png

  3. 修改三个MaxLogFileNum参数的值比原来降一个数量级。

    1529032750907-937d678a-66a2-4061-8d4a-55cf5a70a67d.png

     

  4. 提交修改后的配置信息,并查看配置文件是否同步成功。

    1529032838587-83e15939-2b9c-4a65-8ef0-0980a9ac8071.png

手动修改配置文件

 

  1. 登录到需要修改的集群AG上,从其集群ChunkSever上拷贝一/apsara/pangu_chunkserver/apsara_log_conf.json配置文件,保存在/[$Path]目录下。

    说明:[$Path]代表当前环境的实际路径。

  2. 执行以下命令,备份配置文件。

    cp /[$path]/apsara_log_conf.json  /tmp/
  3. 修改apsara_log_conf.json配置文件,修改MaxLogFileNum参数的值比原来降一个数量级。

  4. 执行以下命令,提交修改后的配置文件。

    puadmin logging -updateloglevel  /[$Path]]/apsara_log_conf.json -c

    系统显示类似如下,表示同步成功。

删除历史日志文件

登录对应的ChunkServer机器,执行以下命令,删除历史日志文件。

cd /apsara/pangu_chunkserver/
for i in `seq 100 999`;do rm -f  pangu_chunkserver.LOG.${i};done
for i in `seq 50 999`;do  rm -f  record_operation.LOG.${i};done

说明:

  • 修改Flag值只对新生成的日志进行清理,历史日志需要手工删除,删除之后新生成的日志就会按新的轮转策略保存,日志保存数量太少会影响后续问题的调查,建议最少保留50个。
  • 具体需要删除的日志文件现场以实际环境为准,此处仅供参考。

3.3. 结果验证

  1. 两小时后登录集群AG,执行以下命令,确认日志数量已下降。

    ls -ltr *LOG*|wc -l
  2. 执行以下命令,确认磁盘空间使用率已下降。

    df  -h

4. 回滚方案

参见实施步骤,将修改的MaxLogFileNum参数还原。