智能托管节点池是ACK推出的一种全托管、免运维的节点管理模式,支持在 ACK托管集群Pro版中使用。启用后,可依据工作负载需求,自动完成节点的动态扩缩容,并提供操作系统升级、安全补丁修复和故障自愈等运维能力,无需手动创建和维护节点。
功能特性
全生命周期自动化运维:自动接管节点从创建、运行到回收的整个生命周期。包括节点镜像轮转、异常节点自动替换以及 OS CVE 漏洞的自动修复等。
即时弹性资源供给:内置节点即时弹性能力,根据 Kubernetes 工作负载的资源请求,毫秒级触发节点扩容或缩容。
企业级安全防护:内置优化的基础软件栈,节点采用 ContainerOS,其不可变根文件系统可强化安全防护。
按量计费:根据资源实际使用量计费,帮助企业减少空闲资源浪费,实现更优的资源成本控制。

节点自动化运维
自动接管节点从创建、运行到回收的整个生命周期,持续承担操作系统升级、组件维护和安全漏洞修复等运维职责,无需手动规划节点配置。
故障修复:自动检测节点异常并触发修复流程,支持配置是否允许通过重启节点完成故障恢复。
操作系统 CVE 修复:支持自动修复操作系统漏洞,覆盖高危、中危和低危等级漏洞。
操作系统版本升级:自动更新节点池操作系统镜像,并通过节点轮转完成升级。
ECS 系统事件自动响应:支持自动识别并响应 ECS系统事件,提升节点运行稳定性和可用性。
确定性资源弹性供给
内置节点即时弹性能力,可根据工作负载变化自动完成节点扩缩容,无需提前规划容量。根据资源实际使用量计费,可减少空闲资源浪费,实现更优的资源成本控制。
弹性响应更快:通过事件驱动的机制来触发扩缩行为,结合阿里云的ContainerOS能力进行弹性加速,伸缩速度大约为45±10s。
基于事件驱动,使用响应式模型,弹性灵敏度为1~3s。
资源交付更稳定:可自动选择合适的实例规格进行扩容;在目标库存不足时,可自动补偿符合条件的其他规格,资源交付成功率可达 99%。同时提供库存预警能力,可提前识别规格组合的潜在风险。
调度效率更优:支持根据Pod选择最优装箱策略(Bin Packing)和预绑定(PreBind)策略(自定义特性),将调度碎片率优化30%。
企业级安全防护
内置采用 ContainerOS 作为节点操作系统。ContainerOS 是专为容器场景设计的操作系统,完全兼容 Kubernetes 生态,兼具快速启动、安全加固和一致性升级等优势。
节点极速扩容
镜像精简:仅保留 Kubernetes Pod 运行所需的软件包和系统服务,通过系统级整合优化,显著缩短节点启动时间。
GPU 场景优化:使用 GPU 实例时,系统内置 ContainerOS GPU 优化版,镜像中预装 NVIDIA 驱动及必要运行环境,减少节点启动后的安装和配置步骤。
安全加固
只读根文件系统:根文件系统默认为只读,仅
/etc和/var目录可写,既满足基本系统配置需求,也符合云原生场景下的不可变基础设施原则,可有效防止逃逸容器篡改主机文件系统。最小化系统能力暴露:默认不提供 Python 运行环境,也不直接开放 SSH 登录,避免用户直接登录到系统中进行无法追溯的操作。对于非常规运维场景,提供专用运维容器作为补充。
原子升级
镜像级更新与回滚:遵循不可变基础设施理念,不提供
yum等传统包管理工具,支持以操作系统镜像为粒度进行更新、回滚(替盘升级)以及有限的分层热升级,从而确保集群节点的软件版本和系统配置保持一致。
与其他节点池模式对比
智能托管节点池与不开启节点池托管、普通托管节点池的配置能力对比如下。
托管配置 | 不开启 | 托管节点池 | 智能托管 | |
节点池配置 | 实例规格 | 手动配置 | 手动配置 | 可配置,支持按规格类型智能推荐 |
付费类型 | 手动配置 | 手动配置 | 仅支持按量付费 | |
操作系统 | 手动配置 | 手动配置 | 仅支持容器优化操作系统 ContainerOS | |
系统盘 | 手动配置 | 手动配置 | 默认推荐配置,20Gi | |
数据盘 | 手动配置 | 手动配置 | 一块数据盘用于 ContainerOS 操作系统的临时存储,大小可配置 | |
自动扩缩容 | 可选开启,手动配置 | 可选开启,手动配置 | 内置开启节点即时弹性 ,可手动配置 | |
ECS系统事件自动响应 | 不支持 | 已内置开启 | 已内置开启 | |
节点自愈 | 不支持 | 可选开启,手动配置 | 已内置开启 | |
kubelet和containerd自动升级 | 通过自动升级集群手动配置 | 已内置开启 | ||
OS CVE漏洞自动修复 | 不支持 | 可选开启,手动配置 | 已内置开启 | |
使用须知
容量边界
使用智能托管节点池后,ACK将根据工作负载需求动态扩缩容节点,默认最大支持扩容至 50 节点。可通过节点池的扩缩容功能修改最大实例数。
智能托管节点池不支持 Arm、本地盘等实例规格,且仅支持ContainerOS 3.6以上版本。ACK 已推荐默认的实例规格类型,可以满足大多数场景下的应用需求。也支持在控制台根据实际业务场景调整。建议设置足够数量的实例规格,以提升节点池的弹性强度,避免扩容失败。
运维边界
使用智能托管节点池后,ACK 将负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责,涉及软件版本升级、软件配置修改、重启、排水驱逐等操作。请避免对节点池中 ECS 节点进行手动运维,例如重启、数据盘挂载、登录节点修改配置等,以避免自动化策略冲突影响。
请合理设置工作负载的副本数、PreStop 优雅下线策略、PodDisruptionBudget 策略等,以确保节点可安全排水且无业务中断影响。
智能托管节点池旨在提供自动化、智能化的 Kubernetes 节点运维功能,在某些场景下,您仍需根据责任共担模型履行部分义务。
存储规范
使用智能托管节点池后,ACK 将基于采用不可变根文件系统的操作系统 ContainerOS 提升节点安全性,请避免使用节点系统路径存储(如 HostPath),推荐使用 PVC 作为持久化存储。
快速创建
可在ACK托管集群Pro版中创建智能托管节点池。
相关文档
推荐在Auto Mode集群中使用智能托管节点池。
支持使用 GPU 算力快速部署大模型推理服务,详见部署Qwen大模型推理服务。