ack-node-problem-detector

ack-node-problem-detectorACK基于社区开源项目进行改造和增强的集群节点异常事件监控组件,同时支持对接第三方监控平台,承载ACK集群的节点异常发现以及事件中心的功能。您可以根据需求使用该组件加入定制化的节点监控插件,扩大节点问题监控范围。本文介绍ack-node-problem-detector组件的信息、使用说明和变更记录。

组件介绍

ack-node-problem-detector组件是ACK集群提供的节点诊断工具,用于监测和上报节点异常问题。该组件由三个主要部分组成:

  • kube-event-init:安装ack-node-problem-detector组件时,负责初始化云端的SLS日志服务事件中心云上实例资源,以便ack-node-problem-detector-daemonsetkube-eventer能够使用这些资源来存储和分析计算事件数据。

  • ack-node-problem-detector-daemonset:在每个符合选择条件的节点上运行一个Pod副本,以监控节点的健康状态并上报集群条件状态和事件。下文中ack-node-problem-detector的镜像地址即为ack-node-problem-detector-daemonset的镜像地址。

    说明

    关于社区开源项目node-problem-detector的更多信息,请参见node-problem-detector

  • kube-eventer:上报集群中的所有事件并默认将其上报至SLS事件中心,以得到默认90天持久化的事件存储分析能力,并提供监控大盘、报警、事件搜索分析等能力。您也可通过手动配置kube-eventer,上报集群事件至钉钉、EventBridge等系统进行进一步数据集成。更多信息,请参见kube-eventer

使用说明

关于ack-node-problem-detector的安装、使用场景以及新增插件的功能,请参见事件监控

变更记录

202408

版本号

镜像地址

变更时间

变更内容

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

20240820

  • 支持ECS节点GPU故障巡检的功能。

  • kube-eventer组件升级,优化了集群大规模事件上报场景下性能瓶颈的问题。

  • kube-eventer组件升级,支持日志服务数据传输V4签名算法。

  • 新增组件参数配置,支持手动配置ack-node-problem-detector DaemonSet Pod的本地端口为2025620257(端口默认关闭)。

202312

版本号

镜像地址

变更时间

变更内容

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20231218

  • 修复在发现PodOOMKilling异常时,有缓存历史Kernel日志导致误报异常事件的缺陷。

  • 支持老版本ack-node-problem-detector组件升级时继承用户自定义配置的组件参数。

202308

版本号

镜像地址

变更时间

变更内容

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20230824

  • 可通过在ACK控制台组件管理页面修改组件参数配置,从而更新SLS服务中的ProjectLogstore实例配置。

  • 支持在向SLS发送日志数据时附加额外的标签信息的功能,比如集群名称,而这些信息在ACK事件中心的SLS数据中是默认显示的。

202306

版本号

镜像地址

变更时间

变更内容

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20230627

支持在ACK控制台的组件管理页面对组件资源规格参数进行配置。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20230606

优化在大规模集群频繁出现PodOOMKilling时,ack-node-problem-detectorAPIServer、ETCD造成性能负载的问题。

202302

版本号

镜像地址

变更时间

变更内容

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20230203

  • 优化组件镜像拉取速度。

  • 支持ACK Edge集群

202209

版本号

镜像地址

变更时间

变更内容

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

20220930

  • 优化ack-node-problem-detector巡检逻辑性能,减少集群核心组件的负载。

  • 镜像安全加固。

202202

版本号

镜像地址

变更时间

变更内容

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

20220222

  • 支持内核巡检。

  • 安全加固。

202201

版本号

镜像地址

变更时间

变更内容

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

20220120

  • 兼容Containerd的不同模式。

  • 组件资源QoS限制的优化,提升组件稳定性。

202111

版本号

镜像地址

变更时间

变更内容

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

20211125

  • 兼容Alibaba Cloud Linux 3、CentOS8等内核版本的系统服务。

  • 支持ARM架构环境。

202104

版本号

镜像地址

变更时间

变更内容

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

20210425

202007

版本号

镜像地址

变更时间

变更内容

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

20200727

  • 优化OOM Killing事件消息,加入Pod的名字、命名空间、UID等信息。

  • 优化check_fd插件的执行效率。

  • 优化节点PID水位的事件通知。

  • 升级网络问题检测插件。

  • 新增监控节点系统盘inode水位报警插件。