应急预案:专有云V3环境中pangu_monitor监控项的调整方法

应急预案:专有云V3环境中pangu_monitor监控项的调整方法

更新时间:2020-07-10 17:17:00

1. 概述

本文主要介绍在专有云V3环境中,pangu_monitor监控项的调整方法。

1.1. 适用范围

  • 专有云V3企业版,盘古

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 预估执行时长:1小时
  • 业务影响:否
    说明:调整监控项,对集群的运行无影响。
  • 风险等级:中
    说明
    • 该方案属于变更方案,需提交变更申请,与现场技术支持确认后操作。
    • 现场确认该集群已到终态,方案需重新Rolling,避免因未到终态导致该次Rolling出现意外情况。

2. 问题描述

当前专有云环境中的pangu_monitor的模板是从公有云移植而来,有很多监控项并不适用于专有云环境,如以下几种情况:

  • ms_memory_speed:内存频率在Docker中获取不到,专有云中的Master都是Docker,因此需要去掉监控。

  • check_top_temp_file_count:监控项在MaxCompute集群中不适用,需要关闭。

  • cs_ssdcache_lifetime:监控项在专有云V3.3及以前版本存在误报,需要关闭。

pangu_monitor有两种,一种是每台ChunkServer上的监控,一种是盘古服务层面的全局监控,本文档针对这两种监控调整都有说明,可以只操作其中一种监控项。

3. 解决方案

详情请参见以下KB文档。

  • KB 93475 通用方案:专有云V3环境pangu_monitor监控项的调整方法