启用节点自动伸缩以实现节点的自动扩缩容_容器服务 Kubernetes 版 ACK(ACK)-阿里云帮助中心

当集群的容量规划无法满足应用Pod调度时，您可以使用节点自动伸缩方案实现节点的自动扩缩。节点自动伸缩适用于扩容规模较小（例如开启弹性的节点池数量少于20，或对应节点池中的节点数量少于100），工作负载批次较为稳定，以单次伸缩为主等业务场景。

阅读前提示

为了让您更好地使用节点自动伸缩功能，建议您在阅读本文档前，已阅读节点伸缩概述并了解以下内容：

节点自动伸缩的工作原理与功能特性

哪些业务场景下，节点自动伸缩可以满足您的业务诉求

使用节点自动伸缩前需要了解的注意事项

前提条件

已创建ACK托管集群、ACK专有集群，请参见创建ACK托管集群、创建ACK专有集群。
已开通弹性伸缩ESS服务。

步骤一：开启节点自动伸缩

使用节点自动伸缩功能前，您需要在节点池页面开启并配置集群自动弹性伸缩，使节点具备伸缩能力。配置时，请选择节点伸缩方案为自动伸缩。

登录容器服务管理控制台，在左侧导航栏选择集群。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。
在节点池页面，单击节点伸缩后方的去配置。
首次使用集群自动弹性伸缩功能时，按照页面提示，开通ESS服务并完成授权（如已开通并授权，请跳过）。
- ACK托管集群：完成AliyunCSManagedAutoScalerRole角色授权。
- ACK专有集群：完成KubernetesWorkerRole角色授权和AliyunCSManagedAutoScalerRolePolicy系统策略的授权，入口如下所示。

在节点伸缩配置页面，选择节点伸缩方案为自动伸缩，配置伸缩的配置项，然后单击确定。

配置	说明
节点池扩容顺序策略	随机策略：存在多个可扩容节点池时，从中任意选择一个节点池进行扩容。默认策略：存在多个可扩容节点池时，从中选择一个资源浪费最少的节点池进行扩容。优先级策略：存在多个可扩容节点池时，会按照您自定义的顺序选择优先级高的节点池进行扩容。需在创建开启了弹性的节点池后再操作。
弹性灵敏度	用于调整系统判断伸缩的间隔时间。默认值为60s。
实施弹性伸缩时，弹性组件会基于调度情况自动触发扩容。您只需配置缩容条件。重要 ECS节点：仅当同时满足缩容阈值、缩容触发时延和静默时间三个条件时，弹性组件才有可能执行节点缩容。 GPU节点：仅当同时满足GPU 缩容阈值、缩容触发时延和静默时间三个条件时，弹性组件才有可能执行GPU节点缩容。
允许缩容	是否允许进行节点缩容。关闭时，缩容相关配置不生效。请谨慎设置。
缩容阈值	启用节点自动伸缩的节点池中，单个节点的请求资源（Request）与单个节点资源容量的比值。仅当该比值低于配置的阈值时，即节点的CPU和内存资源利用率均低于缩容阈值时，节点才有可能被缩容。
GPU 缩容阈值	GPU实例的缩容阈值。仅当该比值低于配置的阈值时，即节点的CPU、内存和GPU资源利用率均低于GPU 缩容阈值时，GPU节点才有可能被缩容。
缩容触发时延	从检测到有缩容需求（达到缩容阈值）到实际执行缩容操作（缩容Pod数量）之间的时间间隔。单位：分钟。默认值：10分钟。重要仅当满足缩容阈值配置，且达到缩容触发时延后，弹性组件才有可能执行节点缩容。
静默时间	距离最近一次扩容完成后，弹性组件不执行缩容的时间间隔。在静默时间内，弹性组件不会缩容节点，但仍会判断节点是否可以缩容；超过静默时间后，如果节点满足缩容阈值和缩容触发时延两个条件，弹性组件则会正常执行缩容。例如，当静默时间为10分钟，缩容触发时延为5分钟时，弹性组件在最近一次扩容后的10分钟内不会缩容节点，但会在静默的10分钟内判断节点是否符合缩容条件。等待静默时间结束，节点达到缩容阈值且时间超过缩容触发时延规定的5分钟时，弹性组件会继续执行缩容。

查看高级配置的配置项说明

配置项	说明
Pod 终止超时时间	缩容节点时等待节点上Pod终止的最长时间。单位：秒。
Pod 最小副本数	节点缩容前每个ReplicaSet中允许的Pod最小数量。
开启 Daemonset Pod 排水	开启DaemonSet Pod排水后，节点缩容时会驱逐节点上的DaemonSet Pod。
跳过有 kube-system 命名空间下 Pod 所在节点	开启后，当集群执行节点自动缩容操作时，可以忽略运行在kube-system命名空间下的Pod所在的节点，确保这些节点不受缩容的影响。说明此功能对DaemonSet Pod和Mirror Pod不生效。

步骤二：配置开启弹性的节点池

节点自动伸缩的扩缩对象为开启自动伸缩节点池的节点。因此，配置节点自动伸缩后，您还需要配置至少一个开启了弹性的节点池。您可以新建一个开启自动弹性伸缩的节点池，也可以配置已有节点池，为其开启自动弹性伸缩功能。

下表介绍主要配置项，其中“节点池”均指“开启弹性的节点池”。更多信息，请参见创建和管理节点池。

配置	说明
扩容模式	支持手动扩容和自动伸缩两种扩容方式，根据业务需求和策略自动调整计算资源，节省集群成本。手动扩容：ACK会根据配置的期望节点数调整节点池中的节点数，将节点数始终维持在期望节点数。更多信息，请参见手动扩缩容节点池。自动伸缩：当集群的容量规划无法满足应用Pod调度时，ACK会根据配置的最小和最大实例数自动扩缩节点资源。1.24及以上版本的集群默认启用节点即时弹性；1.24以下版本的集群默认启用节点自动伸缩。更多信息，请参见节点伸缩概述。
实例相关的配置项	根据实例规格或属性选择Worker节点池使用的ECS实例，可通过vCPU、内存、规格族、架构等属性筛选所需的实例规格族。您可以参见ECS实例规格配置建议获取节点的配置建议。节点池扩容时，将从选中的实例规格中扩容。具体扩容到的实例规格取决于节点池扩缩容策略。选择的实例规格越多，节点池成功弹出节点的概率越大。节点池内实例的规格。单一规格的ECS实例库存容量波动较大，建议配置多种相同规格的实例类型，以提高节点伸缩成功率。如果您选择的实例均为GPU服务器，您可以按需开启共享 GPU 调度。更多信息，请参见共享GPU调度概述。
实例数量	节点池所包含的实例数量（不包含您已有的实例）。默认情况下，实例数最少为0。超过0时，集群会默认向节点池中添加实例，并将实例加入到节点池对应的ACK集群中。
操作系统	在开启自动伸缩时，支持选择Alibaba Cloud Linux、Windows镜像、Windows Core镜像。当所选镜像是Windows镜像或Windows Core镜像时，系统将自动配置污点（Taints）`{ effect: 'NoSchedule', key: 'os', value: 'windows' }`。
节点标签（Labels）	在集群中添加节点标签（Label）后，会自动添加到弹性伸缩扩容出的节点上。重要当节点标签和污点配置映射到节点池Tag后，自动伸缩才可识别，且节点池Tag存在数量上限。因此，请将开启自动伸缩的节点池配置的ECS标签、污点和节点标签的总数控制在12个之内。
扩缩容策略	优先级策略：根据集群配置的虚拟交换机的优先级进行扩缩容（选择的虚拟交换机的顺序，由上到下优先级递减）。当优先级较高的虚拟交换机所在可用区无法创建ECS实例时，自动使用下一优先级的虚拟交换机创建ECS实例。成本优化策略：按vCPU单价从低到高尝试创建实例。当节点池付费类型为抢占式实例时，将优先创建抢占式计费实例。支持同时配置按量实例所占比例（%），当抢占式计费实例规格因库存等原因无法创建时，自动使用按量付费实例来补充。均衡分布策略：只有设置多个专有网络交换机时，均衡分布策略才能生效。在伸缩组指定的多可用区（即指定多个专有网络交换机）之间均匀分配ECS实例。如果由于库存不足等原因造成可用区之间不平衡，您可以再次进行均衡操作，以平衡资源的可用区分布。
使用按量实例补充抢占式容量	需同时选择付费类型为抢占式实例。开启后，如果因价格或库存等原因无法创建足够的抢占式实例，ACK将自动尝试创建按量实例，以满足ECS实例数量要求。
开启抢占式实例补偿	开启抢占式实例补偿需同时选择付费类型为抢占式实例。开启后，当收到抢占式实例将被回收的系统消息时（即抢占式实例被回收前5分钟左右），开启弹性的节点池将尝试创建新的实例，替换掉将被回收的抢占式实例。
伸缩模式	支持标准模式和极速模式。标准模式：根据资源申请值的使用量，通过创建、释放ECS实例的方式进行伸缩。极速模式：通过创建、停机、启动的方式进行伸缩，提高再次伸缩的速度。重要极速弹出模式在节点进入停机回收状态时，节点将停机，并处在`NotReady`状态。当再次伸缩弹出时，节点状态会变为`Ready`。极速模式实例停机再次启动时，如果启动失败，系统不会自动释放实例，请按需手动释放。极速弹出模式的节点处在停机回收状态时，只收取磁盘的费用，不收取计算费用（不包含拥有本地盘的机型系列，例如ecs.d1ne.2xlarge），在库存充裕的前提下可以快速启动。
污点（Taints）	添加污点后，集群将不会将Pod调度到该节点上。

创建开启了弹性的节点池后，您可以参见步骤一：开启节点自动伸缩选择是否配置优先级策略。优先级取值范围为[1, 100]，必须为正整数。

步骤三：（可选）结果验证

完成如上操作后，您便可以使用节点自动伸缩功能。此时，节点池将显示已开始自动伸缩且集群已自动安装cluster-autoscaler组件。

节点池已开启自动伸缩

在节点池页面，节点池列表中将展示已开启自动伸缩的节点池。

已安装cluster-autoscaler组件

在集群管理页左侧导航栏，选择工作负载 > 无状态。
选择kube-system命名空间，显示cluster-autoscaler组件。

常见问题

分类	二级分类	跳转链接
节点自动伸缩的扩缩容行为	扩容行为相关	cluster-autoscaler组件使用哪些调度策略来判断不可调度Pod能否调度到开启了弹性的节点池？ cluster-autoscaler组件可模拟判断的资源有哪些？为什么节点自动伸缩组件无法弹出节点？如果一个伸缩组内配置了多资源类型的实例规格，弹性伸缩时如何计算这个伸缩组的资源呢？弹性伸缩时，如何在多个开启弹性的节点池之间进行选择？为什么Pod无法调度到节点自动伸缩组件弹出节点？开启弹性的节点池如何配置自定义资源？
	缩容行为相关	为什么cluster-autoscaler组件无法缩容节点？如何启用或禁用特定DaemonSet的驱逐？什么类型的Pod可以阻止cluster-autoscaler组件移除节点？
	拓展支持	cluster-autoscaler组件是否支持CRD？
自定义的扩缩容行为	通过Pod控制扩缩容行为	如何延迟cluster-autoscaler组件对不可调度Pod的扩容反应时间？
自定义的扩缩容行为	通过节点控制扩缩容行为	如何指定节点不被cluster-autoscaler组件缩容？如何通过Pod Annotation影响cluster-autoscaler组件的节点缩容？
cluster-autoscaler组件相关		如何升级cluster-autoscaler组件至最新版本？哪些操作会触发cluster-autoscaler组件自动更新？ ACK托管集群已经完成了角色授权，但节点伸缩活动仍然无法正常运行？