更换操作系统

ACK集群会定期发布新的操作系统镜像版本,带来新的功能特性、功能优化和缺陷修复,请及时升级节点池的操作系统镜像版本。您也可以按需切换操作系统类型,例如将已经停止维护(EOL)的操作系统更换为支持中的操作系统。

您可以参见操作系统镜像发布记录了解ACK支持的操作系统类型、操作系统镜像最新版本,以及部分操作系统的使用限制。

注意事项

  • 本操作会通过替换节点系统盘(替盘升级)的方式分批次更新操作系统。请勿在系统盘中保存重要数据,或提前做好备份工作,数据盘在升级过程中则不受影响。请在业务低峰期进行。

  • 通过替盘方式升级节点时,ACK会进行节点排水操作,遵循Pod Disruption Budget(PDB)的前提下将节点上的Pod驱逐至其他可用节点。为确保服务高可用性,建议您采用多副本部署策略,将工作负载分散在多个节点上,同时为关键业务配置PDB,控制同时中断的Pod数量。

    节点排水的默认超时时间为30分钟。如果在超时时间内未能完成Pod迁移,ACK将终止本次升级以确保业务稳定性。

  • ACK部分操作系统默认使用cgroup v2。关于cgroup v2的注意事项,请参见cgroup版本说明

  • 如果您的节点为游离节点,即未被节点池管理的Worker节点,需参见迁移游离节点至节点池完成迁移。

  • ContainerOS 3.4.0中已将系统盘调整为全只读模式,需绑定一块数据盘以保证系统正常启动。因此,ContainerOS 3.3升级至3.4及以上版本(其他版本不受影响)时,需参见以下流程。

    展开查看具体流程

    请根据当前节点池的数据盘挂载情况,选择对应的升级方案:

    • 挂载了单块数据盘:系统可正常启动,可参见下方的操作步骤完成升级。

    • 挂载了多块数据盘:需新建节点池轮转迁移,即新建一个节点池,选择ContainerOS 3.4或以上版本,挂载 1 块数据盘,并扩容相应数量的节点。通过设置老节点池禁止调度或者更新应用负载指定节点池调度(例如Label),逐步将应用迁移至新节点池,最后下线旧节点池。

    • 未挂载数据盘:

      • 保留当前节点池:更新节点池配置,挂载 1 块数据盘,并扩容新节点。待新节点正常运行后,逐步将旧节点排水和移除。

      • 新建节点池轮转迁移,流程同“挂载了多块数据盘”。

    关于如何创建和编辑节点池,请参见创建和管理节点池;关于如何将节点设置为不可调度,请参见节点排水和调度状态;关于如何移除节点,请参见移除节点
  • 如果您的节点池通过指定版本号自定义节点GPU驱动版本通过OSS URL自定义节点GPU驱动,在进行操作系统镜像升级时,可能存在操作系统与驱动版本不兼容情况。请参见ACK支持的NVIDIA驱动版本列表选择最新驱动。

操作步骤

您可以参见如下步骤更新操作系统镜像至最新版本或更换操作系统类型。为避免兼容性风险,建议先进行前置检查扫描。

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

  3. 节点池列表的操作列,选择目标节点池对应的image > 更换操作系统

  4. 单击前置检查,提前扫描更换操作系统镜像可能存在的风险,并查看检查结果。

    • 结果正常:升级检查成功,继续后续操作。

    • 结果异常:不影响当前集群的运行及集群状态。请参见推荐的解决方案进行修复。

  5. 前置检查通过后,按照如下内容进行配置,然后单击开始更换

    配置项

    说明

    目标版本

    选择所需更换的目标镜像及对应版本。

    当前版本

    当前使用的操作系统版本。

    更新节点

    指定待更换操作系统的节点(选择所有节点或部分节点)。

    批量升级策略

    每批次执行最多节点数

    系统会根据设置的最大并行数依次对节点进行更新。

    自动暂停策略

    在节点更换操作系统过程中的暂停策略。

    每批次间隔时间

    自动暂停策略为不暂停时,可选择每个更新批次之间是否需要时间间隔或间隔的时长。可选范围为5~120分钟。

    自动快照

    当前升级方式为替盘升级,若节点系统盘上有重要业务数据,建议在更新操作系统前为节点创建快照,以便进行数据的备份和恢复。使用快照将产生快照计费。升级后若快照无需使用,请及时删除快照

    重要

    更换操作系统时,为避免OS带来的非兼容风险,建议您查看操作系统镜像发布记录

相关文档