为了提升集群的稳定性,建议您将ACK NPD(ack-node-problem-detector)组件升级到1.2.8版本以上。
背景信息
低于v1.2.8版本的ack-node-problem-detector组件会默认开启文件系统句柄巡检项(check_fd),check_fd的进程在读取大内核数据时,会触发部分操作系统内核版本缺陷,可能会造成僵尸进程堆积、甚至宕机的风险。
升级组件
- 为避免低版本组件可能导致的问题,满足内核版本条件的集群,请升级ack-node-problem-detector组件至1.2.8版本以上,即可默认停止文件系统句柄巡检项(check_fd),避免读取大内核数据。ack-node-problem-detector组件升级信息,请参见ack-node-problem-detector。
- 修复内核缺陷。更多信息,请参见Alibaba Cloud Linux 2系统的ECS实例中Page Fault异常导致系统宕机 。