节点操作系统中的CVE漏洞可能带来集群数据泄露、服务中断等问题,对集群的稳定性、安全性、合规性造成威胁。您可以启用操作系统(OS)CVE漏洞修复功能,扫描节点上存在的安全漏洞,获得修复建议与方法,并在控制台上完成快速修复。
前提条件
本功能是阿里云云安全中心提供的高级功能,使用时需要开通云安全中心的高级版、企业版或旗舰版,且保证配额充足。ACK不额外收取费用。具体操作,请参见购买云安全中心、功能特性。
注意事项
CVE的兼容性由云安全中心保证,请自行检查集群应用与CVE的兼容性。如您在CVE修复过程中发现问题,您可以随时暂停或取消修复任务。
如果CVE漏洞修复时需要通过重启节点来实现,当ACK需要重启节点时,会在重启节点前执行本节点的排水操作。
集群水位:水位不宜过高,需确保有充足的Pod分配空间,用于排水操作。
为保证集群高可用,建议您打开此开关后,通过节点池扩容功能提前扩容出相应节点数。更多信息,请参见手动扩缩容节点池。
PDB限制:如果您配置了PDB,请确保集群有足够的资源用于排水,且Pod的副本数量满足PDB规定的最小可用性(Pod副本数量>
spec.minAvailable
)要求。如果无需该PDB限制,请删除该PDB规则。Pod终止:需确保Pod内的容器能够正常处理TERM(SIGTERM)信号,避免Pod无法在宽限期限(Grace Period)内正常终止,继而导致排水失败。
排水最大超时时间:排水最大超时时间为1小时,如超期后排水仍未成功,ACK不会继续执行后续操作。
修复需要重启的CVE漏洞时,如果修复的目标节点范围中包含GPU节点,推荐您使用手动升级Kernel的方案代替,以避免GPU驱动兼容性问题。具体操作,请参见如何在已有集群的GPU节点上手动升级Kernel。
CVE修复任务分批次执行。任务暂停或者取消后,已经下发的批次会继续执行直至完成,未下发的批次会暂停或取消任务下发。
CVE修复任务在设定的集群维护窗口内执行。如果任务执行时间超出维护窗口,未完成的任务会被自动取消。已经下发的批次会继续执行直至完成,未下发的批次会取消任务下发。
同一时间段内,一个节点池中仅支持一个CVE漏洞修复任务运行。
若操作系统类型为 ContainerOS,建议通过升级操作系统的方式修复 CVE 漏洞。仅 ContainerOS 3.2、3.3 支持CVE 漏洞修复功能。
ContainerOS版本说明,请参见ContainerOS镜像发布记录。
修改了运维窗口后,已排期的CVE修复运维计划会被取消,等待下次重新排期。
操作步骤
操作系统CVE漏洞自动修复(推荐)
托管节点池提供自动化运维能力,可实现操作系统CVE漏洞的自动修复。启用后,ACK会根据全局任务规则排期并执行修复计划。自动修复将会在设定的运维窗口内执行。由于 ACK 采用渐进的方式推送修复,节点池出现漏洞后执行修复的具体时间可能因地域等具体情况而产生一定延迟。
自2025年08月05日起,CVE漏洞自动修复策略相关参数有所调整,请参见变更三:安全漏洞自动修复策略相关参数调整。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在目标节点池列表的操作列,单击
> 开启托管(节点池)或托管配置(托管节点池),选择托管配置模式为托管节点池,选择需要自动修复的CVE漏洞等级。
Linux 内核(Kernel)软件出现安全漏洞后,通常需要对内核软件包进行升级,并进行节点重启。由于这类操作涉及的稳定性风险较大,ACK 默认情况下将跳过内核安全漏洞的修复。建议通过更换操作系统或操作系统CVE漏洞手动修复来手动处理。
如果仍需自动修复Kernel漏洞,请提交工单进行调整。
操作系统CVE漏洞手动修复
您也可以通过以下方式手动修复CVE漏洞。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在节点池列表页面的操作列,单击目标节点池对应的
> 修复 CVE(OS)。
在漏洞列表区域勾选需要修复的漏洞,在实例列表区域勾选需要修复的实例,配置批量修复策略,然后单击开始修复,按照页面提示完成操作。
批量修复策略配置说明如下:
每批次的最大并行数:节点池升级过程会根据设置的最大并行数,依次对节点进行CVE漏洞修复。每个批次的升级节点数依次为1、2、4、8……直至达到最大并行数。达到最大并行数后,每个批次都按最大并行数的节点进行升级。例如,最大并行数设置为4,那么第一批升级的节点个数为1,第二批升级的节点个数为2,第三批升级的节点个数为4,以后每批的升级节点个数均为4。
DryRun模式:启用后,ACK会进行模拟修复,并生成相应报告,不会真正修复CVE漏洞。
后续步骤
完成上述操作后,可通过单击暂停、继续、取消按钮控制CVE修复流程。