ack-node-problem-detector

ack-node-problem-detector是ACK基于社区开源项目进行改造和增强的集群节点异常事件监控组件,同时支持对接第三方监控平台,承载ACK集群的节点异常发现以及事件中心的功能。您可以根据需求使用该组件加入定制化的节点监控插件,扩大节点问题监控范围。本文介绍ack-node-problem-detector组件的信息、使用说明和变更记录。

组件介绍

ack-node-problem-detector组件是ACK集群提供的节点诊断工具,用于监测和上报节点异常问题。该组件由三个主要部分组成:

  • kube-event-init:安装ack-node-problem-detector组件时,负责初始化云端的SLS日志服务事件中心云上实例资源,以便ack-node-problem-detector-daemonset和kube-eventer能够使用这些资源来存储和分析计算事件数据。

  • ack-node-problem-detector-daemonset:在每个符合选择条件的节点上运行一个Pod副本,以监控节点的健康状态并上报集群条件状态和事件。下文中ack-node-problem-detector的镜像地址即为ack-node-problem-detector-daemonset的镜像地址。

    说明

    关于社区开源项目node-problem-detector的更多信息,请参见node-problem-detector

  • kube-eventer:上报集群中的所有事件并默认将其上报至SLS事件中心,以得到默认90天持久化的事件存储分析能力,并提供监控大盘、报警、事件搜索分析等能力。您也可通过手动配置kube-eventer,上报集群事件至钉钉、EventBridge等系统进行进一步数据集成。更多信息,请参见kube-eventer

使用说明

关于ack-node-problem-detector的安装、使用场景以及新增插件的功能,请参见事件监控

变更记录

2024年08月

版本号

镜像地址

变更时间

变更内容

1.2.20

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.14-3c6002c-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.11-0620284-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.8-e43647f-aliyun

2024年08月20日

  • 支持ECS节点GPU故障巡检的功能。

  • kube-eventer组件升级,优化了集群大规模事件上报场景下性能瓶颈的问题。

  • kube-eventer组件升级,支持日志服务数据传输V4签名算法。

  • 新增组件参数配置,支持手动配置ack-node-problem-detector DaemonSet Pod的本地端口为20256或20257(端口默认关闭)。

2023年12月

版本号

镜像地址

变更时间

变更内容

v1.2.18

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.13-003ac31-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年12月18日

  • 修复在发现PodOOMKilling异常时,有缓存历史Kernel日志导致误报异常事件的缺陷。

  • 支持老版本ack-node-problem-detector组件升级时继承用户自定义配置的组件参数。

2023年08月

版本号

镜像地址

变更时间

变更内容

v1.2.17

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-27a468a-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年08月24日

  • 可通过在ACK控制台组件管理页面修改组件参数配置,从而更新SLS服务中的Project和Logstore实例配置。

  • 支持在向SLS发送日志数据时附加额外的标签信息的功能,比如集群名称,而这些信息在ACK事件中心的SLS数据中是默认显示的。

2023年06月

版本号

镜像地址

变更时间

变更内容

v1.2.16

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年06月27日

支持在ACK控制台的组件管理页面对组件资源规格参数进行配置。

v1.2.15

  • ack-node-problem-detector: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/node-problem-detector:v0.8.12-bf8aff8-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.8-019546c-aliyun

  • kube-event-init: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年06月06日

优化在大规模集群频繁出现PodOOMKilling时,ack-node-problem-detector对APIServer、ETCD造成性能负载的问题。

2023年02月

版本号

镜像地址

变更时间

变更内容

v1.2.14

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2023年02月03日

  • 优化组件镜像拉取速度。

  • 支持ACK Edge集群

2022年09月

版本号

镜像地址

变更时间

变更内容

v1.2.11

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.11-edc7907-aliyun

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer:v1.2.6-bbf76f7-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.7-48a2acc-aliyun

2022年09月30日

  • 优化ack-node-problem-detector巡检逻辑性能,减少集群核心组件的负载。

  • 镜像安全加固。

2022年02月

版本号

镜像地址

变更时间

变更内容

v1.2.9

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.6-f0efecf-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年02月22日

  • 支持内核巡检。

  • 安全加固。

2022年01月

版本号

镜像地址

变更时间

变更内容

v1.2.8

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2022年01月20日

  • 兼容Containerd的不同模式。

  • 组件资源QoS限制的优化,提升组件稳定性。

2021年11月

版本号

镜像地址

变更时间

变更内容

v1.2.7

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.8.10-e0ff7d2

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.5-cc7ec54-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:v1.6-a92aba6-aliyun

2021年11月25日

  • 兼容Alibaba Cloud Linux 3、CentOS8等内核版本的系统服务。

  • 支持ARM架构环境。

2021年04月

版本号

镜像地址

变更时间

变更内容

v1.2.5

  • ack-node-problem-detector: registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

  • kube-eventer: registry-vpc.__ACK_REGION_ID__.aliyuncs.com/acs/kube-eventer-amd64:v1.2.4-0f5aaee-aliyun

  • kube-event-init: registry.{ .Values.controller.regionId }.aliyuncs.com/acs/kube-eventer-init:1.5-5e0e7c1-aliyun

2021年04月25日

2020年07月

版本号

镜像地址

变更时间

变更内容

v0.6.3-28-160499f

registry.aliyuncs.com/acs/node-problem-detector:v0.6.3-28-160499f

2020年07月27日

  • 优化OOM Killing事件消息,加入Pod的名字、命名空间、UID等信息。

  • 优化check_fd插件的执行效率。

  • 优化节点PID水位的事件通知。

  • 升级网络问题检测插件。

  • 新增监控节点系统盘inode水位报警插件。