应急预案:pai集群容器产生僵尸进程的修复方法

应急预案:pai集群容器产生僵尸进程的修复方法

更新时间:2020-07-01 18:16:51

1. 概述

本文主要介绍专有云环境中,pai集群容器产生僵尸进程的修复方法。

1.1. 适用范围

  • 专有云V3企业版,容器服务
    说明
    • 仅适用于专有云V3.8以下版本,不包含专有云V2版本。
    • 专有云V3.8.0的Hotfix已经彻底修复此问题。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:临时
  • 操作复杂度:中
  • 业务影响:否
  • 风险等级:低
    说明
    • 重启容器时,需要灰度重启,每个容器重启后都要确认到达终态,再重启下一个容器,这样操作风险低。
    • 超过或包含200个僵尸进程则是大量僵尸进程的情况,少于200个僵尸进程则是没有大量僵尸进程的情况。
    • 本方案为临时解决方法,最终解决方法需要等待Hotfix。

2. 问题描述

pai集群PaiJcs#服务角色的pai_jcs容器和PaiCap#服务角色的pai_cap容器产生大量僵尸进程,导致宿主机无法创建新的进程,影响宿主机上其他容器。如果发现有pai_jcs和pai_cap容器,则按照以下临时解决方法,修复并预防问题。

  • 宿主机有大量僵尸进程的情况:先重启容器,然后修改容器内计划任务。
  • 宿主机没有大量僵尸进程的情况:修改容器内计划任务。

3. 解决方案

详情请参见以下KB文档。

  • KB 122160 通用方案:pai集群容器产生僵尸进程的修复方法