文档

节点与节点池FAQ

更新时间:

本文为您介绍节点与节点池常见问题。例如,如何更改节点的Pod数量,如何更换节点池的OS镜像,如何解决节点相关timeout问题等。

如何更换节点池OS镜像?

更换节点池OS镜像的方法与升级节点池的方法一致,以下为详细操作步骤。

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

  3. 在目标节点池所在行,单击操作列的更多 > 升级

  4. 选中更换操作系统,选择要替换的镜像,然后单击开始升级

    说明

    更换操作系统时,默认选中Kubelet升级通过替换节点系统盘的方式升级节点池。请根据实际情况,确认是否选中升级前为节点建立快照

是否支持关闭期望节点数功能?

不支持。

如果您想移除、释放指定节点,请参见移除节点。如果您想添加指定节点,请参见添加已有节点移除节点添加已有节点后,期望节点数自动适配为调整后的节点数,无需人为修改。

开启期望节点数与未开启期望节点数的节点池有什么不同?

期望节点数是指节点池应该维持的节点数量。您可以通过调整期望节点数,达到扩容或缩容节点池的目的。但部分老节点池没有设置过期望节点数,从而未开启期望节点数功能。

开启或未开启期望节点数的节点池对于移除节点、释放ECS等不同的操作方式,会有不同感知,具体如下表。

操作

开启期望节点数节点池

未开启期望节点数节点池

建议

通过ACK的OpenAPI或者控制台缩小期望节点数进行缩容。

缩小期望节点数后,将缩容节点池内节点,直到满足指定的期望节点数量。

如果节点池内当前节点数大于期望节点数,将缩容节点,直到满足终态期望节点数量,并将开启期望节点数功能。

无。

通过ACK的OpenAPI或者控制台移除指定节点。

移除指定节点,期望节点数减少移除节点的数目。例如节点池移除指定节点前,期望节点数为10。移除3个节点后,期望节点数更新为7。

移除指定节点。

无。

通过kubectl delete node方式移除节点。

期望节点数不会改变,没有变化。

无变化。

不推荐。

手动通过ECS控制台或者OpenAPI释放ECS。

生成新ECS实例,补充到设定的期望节点数中。

节点池不感知。不会有新ECS实例生成。节点池节点列表被删除的节点会显示状态为“未知”一段时间。

不推荐,会导致ACK、ESS数据与实际情况不一致,请使用推荐方式移除节点。具体操作,请参见移除节点

包年包月ECS实例到期。

生成新的ECS实例,补充到设置的期望节点数。

节点池不感知。不会有新ECS实例生成。节点池节点列表中被删除的节点会显示状态为“未知”一段时间。

不推荐,会导致ACK、ESS数据与实际情况不一致,请使用推荐方式移除节点。具体操作,请参见移除节点

ESS伸缩组手动开启“实例的健康检查”,并且ECS实例无法通过ESS健康检查(如停机)。

生成新ECS实例,补充到设置的期望节点数。

生成新ECS实例,替换停机实例。

不推荐,请不要直接操作节点池相关的伸缩组。

通过ESS将ECS实例从伸缩组中移除,并且不修改期望实例数。

生成新ECS实例,补充到设置的期望节点数。

不会生成新的ECS实例。

不推荐,请不要直接操作节点池相关的伸缩组。

如何将已有的节点添加到集群?

当您希望将已有节点加入到集群中却没有节点池时,您可以创建一个0节点的节点池,然后手动添加已有ECS为节点。创建0节点的节点池时,选择和您已有的ECS相同的虚拟交换机,并将期望节点数设置为0。手动添加已有ECS为节点,请参见添加已有节点

说明

每个节点池对应一个弹性伸缩组实例,节点池本身不额外收费,但节点池使用的ECS实例等云资源由对应的云产品计费。

如何在节点池中选用抢占性实例?

可以通过新建节点池或者spot-instance-advisor命令行的方式使用抢占性实例。详细信息请参见抢占式实例节点池最佳实践

说明

不支持在创建集群时,进行节点池配置中选择抢占性实例。

如何更改节点Pod数量或提升节点Pod配额?

  • 不同集群单节点支持的最大Pod数是有限制的,部分集群支持申请例外,提升配额。详细信息,请参见集群配额

  • 不同网络插件类型对节点Pod数量也是有限制的。集群的网络插件类型可通过集群的基本信息页签查看。

    • Flannel网络插件:创建好集群后,每个节点可分配的Pod数量是不支持修改的。您可以通过扩容节点池增加节点,或者重建集群并重新规划Pod网段,来增加支持的Pod数量。

      关于扩容节点池,请参见扩缩容节点池。关于创建集群,请参见创建Kubernetes托管版集群

    • Terway网络插件:依赖ECS实例规格所提供的弹性网卡数量。Terway不同模式使用的组件不同,支持的Pod数量也不同。您可以通过提升实例规格来扩容单节点Pod数量,或者扩容节点池增加节点,来增加支持的Pod数量。

      Terway不同模式支持的节点最大Pod数量信息,请参见Terway网络插件下节点最大Pod数量。关于变更实例规格,请参见升降配方式概述

      说明
      • 通过添加节点的方式增加支持的Pod数量时,请注意集群规模过大可能对集群的可用性及性能产生影响,请合理设计和使用规模化集群。更多信息,请参见大规模ACK Pro集群使用建议

      • 变更实例规格后,需要设置节点为不可调度,并对节点进行排水,然后重启节点,重启节点后再恢复调度。详细信息,请参见设置节点调度状态

      • 查询ECS规格支持的弹性网卡以及单个ENI支持的私有IP数,请参见实例规格族

如何更改节点配置?

为了业务的平稳运行及方便节点管理:

  • 部分节点配置项,在节点池创建完成后不支持修改,例如容器运行时、节点所属的专有网络等。

  • 部分节点配置项,在节点池创建完成后修改是受限的,例如,操作系统仅允许修改为同类型镜像的最新版本,不支持更改镜像类型。

  • 部分节点配置项,在节点池创建完成后支持修改。例如虚拟交换机、付费类型、实例规格等。

另外,部分支持修改的配置项,仅对节点池新增节点生效,对节点池已有节点无效。例如公网IP、云监控插件等。关于节点配置项是否支持修改以及对节点的生效信息,请参见编辑节点池

综上,如果您想运行一个新配置的节点,建议您按照新配置新建节点池,将旧节点池中的节点设置为不可调度,然后对其进行排水操作。将业务运行到新节点以后,释放旧的节点即可。

如何释放指定的ECS实例?

请通过移除节点,释放指定的ECS实例。释放ECS实例后,期望节点数自动适配到释放后的节点数量,无需人为修改。另外,修改期望节点数并不能释放指定的ECS实例。

对于不属于任何节点池的worker节点,如何升级它的容器运行时?

按照如下步骤进行操作:

  1. 移除节点。移除worker节点的过程中,系统会将节点置为不可调度,并对节点进行排水。如果排水失败,系统将停止移除节点,如果成功,则将节点继续移出集群。

  2. 添加已有节点。可以将目标节点加入已有节点池,也可以创建0节点的节点池,然后将目标节点添加进来。节点添加完成后,已有节点的容器运行时自动变成与节点池相同的容器运行时。

    说明

    节点池本身不收费,但节点池使用的ECS实例等云资源由对应的云产品计费。详细信息,请参见云产品资源计费

添加已有节点后报错,提示timeout,怎么办?

请排查节点与APIServer CLB的网络是否可以连通,请先排查安全组是否符合要求。添加已有节点时安全组的使用限制,请参见安全组限制。关于网络不通的其他问题,请参见网络管理FAQ

如何更改ACK集群中Worker节点的主机名称?

集群创建完成后,不支持自定义Worker节点的主机名称,但是您可以通过节点池的节点命名规则来修改Worker节点的主机名称。

说明

创建集群时,您可以在自定义节点名称参数中定义Worker节点的主机名称。具体操作,请参见创建Kubernetes托管版集群

  1. 移除节点。

    1. 登录容器服务管理控制台,在左侧导航栏选择集群

    2. 在集群管理页左侧导航栏,选择节点管理 > 节点

    3. 节点页面单击目标节点右侧操作列下的更多 > 移除

    4. 在弹出的对话框中选中我已了解上述说明,确认移除节点,然后单击确定

  2. 将移除的节点再添加到节点池。具体操作,请参见手动添加节点

    添加的节点将根据节点池的节点命名规则进行命名。

如何在已有集群的GPU节点上手动升级Kernel?

下面为您介绍如何在已有集群的GPU节点上手动升级Kernel。

说明

当前kernel版本低于3.10.0-957.21.3

请确认需要升级的目标kernel版本,并谨慎操作。

本文提供方案并不涉及kernel升级,仅针对在kernel升级的前提下对应的Nvidia驱动升级。

  1. 获取集群KubeConfig并通过kubectl工具连接集群

  2. 将GPU节点设置为不可调度(本例以节点 cn-beijing.i-2ze19qyi8votgjz12345为例)。

    kubectl cordon cn-beijing.i-2ze19qyi8votgjz12345
    
    node/cn-beijing.i-2ze19qyi8votgjz12345 already cordoned
  3. 将要升级驱动的GPU节点进行排水。

    kubectl drain cn-beijing.i-2ze19qyi8votgjz12345 --grace-period=120 --ignore-daemonsets=true
    
    node/cn-beijing.i-2ze19qyi8votgjz12345 cordoned
    WARNING: Ignoring DaemonSet-managed pods: flexvolume-9scb4, kube-flannel-ds-r2qmh, kube-proxy-worker-l62sf, logtail-ds-f9vbg
    pod/nginx-ingress-controller-78d847fb96-5fkkw evicted
  4. 卸载当前的nvidia-driver。

    说明

    本步骤中卸载的是版本为384.111的驱动包,如果您的驱动版本不是384.111,则需要在Nvidia官网下载对应的驱动安装包,并将本步骤中的384.111替换成您实际的版本。

    1. 登录到该GPU节点,通过nvidia-smi查看驱动版本。

      sudo nvidia-smi -a | grep 'Driver Version'
      Driver Version                      : 384.111
    2. 下载Nvidia驱动安装包。

      sudo cd /tmp/
      sudo curl -O https://cn.download.nvidia.cn/tesla/384.111/NVIDIA-Linux-x86_64-384.111.run
      说明

      需要在安装包中卸载Nvidia。

    3. 卸载当前Nvidia驱动。

      sudo chmod u+x NVIDIA-Linux-x86_64-384.111.run
      sudo sh ./NVIDIA-Linux-x86_64-384.111.run --uninstall -a -s -q
  5. 升级Kernel。

    您可以根据需要升级Kernel。

  6. 重启GPU机器。

    sudo reboot
  7. 重新登录GPU节点,安装对应的kernel devel。

    sudo yum install -y kernel-devel-$(uname -r)
  8. 请到Nvidia官网下载和安装您需要的Nvidia驱动, 本文以410.79为例。

    sudo cd /tmp/
    sudo curl -O https://cn.download.nvidia.cn/tesla/410.79/NVIDIA-Linux-x86_64-410.79.run
    sudo chmod u+x NVIDIA-Linux-x86_64-410.79.run
    sudo sh ./NVIDIA-Linux-x86_64-410.79.run -a -s -q
    
    warm up GPU
    sudo nvidia-smi -pm 1 || true
    sudo nvidia-smi -acp 0 || true
    sudo nvidia-smi --auto-boost-default=0 || true
    sudo nvidia-smi --auto-boost-permission=0 || true
    sudo nvidia-modprobe -u -c=0 -m || true
  9. 查看 /etc/rc.d/rc.local,确认其中是否包含以下配置,如果没有请手动添加。

    sudo nvidia-smi -pm 1 || true
    sudo nvidia-smi -acp 0 || true
    sudo nvidia-smi --auto-boost-default=0 || true
    sudo nvidia-smi --auto-boost-permission=0 || true
    sudo nvidia-modprobe -u -c=0 -m || true
  10. 重启kubelet和Docker。

    sudo service kubelet stop
    sudo service docker restart
    sudo service kubelet start
  11. 将此GPU节点重新设置为可调度。

    kubectl uncordon cn-beijing.i-2ze19qyi8votgjz12345
    
    node/cn-beijing.i-2ze19qyi8votgjz12345 already uncordoned
  12. 在GPU节点上的device plugin pod验证版本。

    kubectl exec -n kube-system -t nvidia-device-plugin-cn-beijing.i-2ze19qyi8votgjz12345 nvidia-smi
    Thu Jan 17 00:33:27 2019
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: N/A      |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla P100-PCIE...  On   | 00000000:00:09.0 Off |                    0 |
    | N/A   27C    P0    28W / 250W |      0MiB / 16280MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    
    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID   Type   Process name                             Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    说明

    如果通过docker ps命令,发现GPU节点没有容器被启动,请参见修复GPU节点容器启动问题

修复GPU节点容器启动问题

在某些特定Kubernetes版本中的GPU节点上,重启Kubelet和Docker时,发现没有容器被启动。

sudo service kubelet stop
Redirecting to /bin/systemctl stop kubelet.service
sudo service docker stop
Redirecting to /bin/systemctl stop docker.service
sudo service docker start
Redirecting to /bin/systemctl start docker.service
sudo service kubelet start
Redirecting to /bin/systemctl start kubelet.service

sudo docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES

执行以下命令,查看Docker的Cgroup Driver。

sudo docker info | grep -i cgroup
Cgroup Driver: cgroupfs

此时发现的Cgroup Driver类型是cgroupfs。

您可以按照以下操作,修复该问题。

  1. 备份/etc/docker/daemon.json,完成后,执行以下命令更新/etc/docker/daemon.json

    sudo cat >/etc/docker/daemon.json <<-EOF
    {
        "default-runtime": "nvidia",
        "runtimes": {
            "nvidia": {
                "path": "/usr/bin/nvidia-container-runtime",
                "runtimeArgs": []
            }
        },
        "exec-opts": ["native.cgroupdriver=systemd"],
        "log-driver": "json-file",
        "log-opts": {
            "max-size": "100m",
            "max-file": "10"
        },
        "oom-score-adjust": -1000,
        "storage-driver": "overlay2",
        "storage-opts":["overlay2.override_kernel_check=true"],
        "live-restore": true
    }
    EOF
  2. 执行以下命令,重启Docker和Kubelet。

    sudo service kubelet stop
    Redirecting to /bin/systemctl stop kubelet.service
    sudo service docker restart
    Redirecting to /bin/systemctl restart docker.service
    sudo service kubelet start
    Redirecting to /bin/systemctl start kubelet.service
  3. 执行以下命令,确认Docker的Cgroup Driver的类型为systemd。

    sudo docker info | grep -i cgroup
    Cgroup Driver: systemd

ACK集群中kubelet目录路径是什么?支持自定义吗?

ACK不支持自定kubelet路径。kubelet路径默认为/var/lib/kubelet,请勿更改。

节点故障时,如何将节点Pod批量转移到其他节点上重新部署?

您可以将故障节点设置为不可调度并进行排水,将故障节点的应用Pod逐步迁移至新节点。

  1. 登录容器服务管理控制台,在节点页面的操作列,选择更多>节点排水。此操作会将旧节点设置为不可调度状态,将旧节点池的应用逐步迁移至新节点池。

  2. 排查故障节点问题。关于故障排查的思路,请参见节点异常问题排查

    您也可以提交工单联系容器服务技术团队。

  • 本页导读 (1)