创建ACK托管集群(智能托管模式)

创建ACK托管集群时,您可以选择开启智能托管(Auto Mode)模式。开启后,您仅需进行简单的规划配置,即可一键创建符合最佳实践的Kubernetes集群。该集群会默认创建一个智能托管节点池,其中的节点生命周期将由ACK进行托管和运维。

开启智能托管模式前,建议您已参见智能托管模式介绍了解其功能特性和使用场景。

准备工作

规划与设计

创建集群前,建议您根据业务需求规划并设计集群配置,以确保集群能够稳定、高效且安全地运行。

  • 地域:所选地域与用户和资源部署地域的距离越近,网络时延越低,访问速度越快。

  • 可用区:推荐配置多可用区,以保证集群高可用。

  • 网络地址规划根据业务场景和集群规模规划VPC网段(VPC自身网段和vSwitch网段)和Kubernetes网段(Pod地址段和Service地址段),定义整个集群的IP地址范围以及Pod和节点可用的IP地址数量。

  • 公网访问:集群节点是否需要访问公网(拉取公共镜像时需开通公网)。

开通与授权

创建集群前,请确保您已经开通容器服务ACK、为您的阿里云账号或RAM账号授予了ACK系统服务角色(ACK需要这些权限来调用相关服务或执行集群操作),并且开通了相关云产品(例如VPC、负载均衡、NAT网关等)。

  • 开通ACK:首次使用时,登录容器服务ACK开通页面,按照页面提示完成开通。

  • 角色授权:进入访问控制快速授权页面,授权阿里云账号创建容器服务默认角色,以确保ACK能够正常调用相关的云服务资源。

  • 开通集群相关云产品:开通ACK集群依赖的云产品,包括VPC、SLB等。

    说明
    • 创建过程中涉及按量资源(例如CLB)的购买。请确保账户余额充足,避免因欠费导致停机。

    • 仅阿里云账号可开通云产品。如需为RAM用户授权管理已开通的云产品,请参见使用RAM授予集群及云资源访问权限

创建步骤

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 在页面左侧顶部,选择目标资源所在的资源组和地域。image

  3. 集群列表页面,单击创建集群,在ACK 托管集群页面,打开智能托管模式。

    image

  4. 参见下文配置说明,按照页面指引完成集群配置,仔细确认集群的配置信息、阅读服务协议后,单击创建集群

    Auto Mode模式仅支持ACK托管集群Pro,涉及集群管理费用和相关云产品费用。您可以在创建页面下方查看集群费用总览,也可以查看ACK和各产品的计费文档,请参见计费概述云产品资源费用

    您还可以在页面的右上角单击同等代码,生成当前集群配置对应的TerraformSDK示例参数。
  • 创建后,集群会自动创建一个开启了Auto Mode模式的节点池(简称Auto Mode节点池)。该节点池将根据工作负载按需动态扩缩容,同时 ACK 将接管节点的生命周期管理,负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责。

  • 创建后,ACK 将根据您的配置安装组件,这些组件可能占用集群中的计算资源。智能托管节点池会自动扩容对应的节点。

配置说明

您可以基于默认配置创建集群,也可以根据业务需求和账号下资源情况进行灵活调整。表格的是否支持修改列中,错代表创建后不支持修改,对代表支持修改。请重点关注不可修改项。

基础配置

配置项

描述

是否支持修改

集群名称

自定义集群名称。

地域

集群资源(ECS实例、云盘等)所处地域。地域与用户和资源部署地域的距离越近,网络时延越低。

集群维护窗口

ACK会且仅会在定义的维护窗口期内执行自动化运维任务,包括集群自动升级、容器运行时自动升级、OS CVE漏洞自动修复等。

网络配置

配置项

描述

是否支持修改

IPv6双栈

仅支持1.22及以上版本,仅支持Terway,不支持与eRDMA功能同时使用

集群同时支持IPv4IPv6协议,但Worker节点与控制面间的通信仍使用IPv4地址。需确保:

  • 集群VPC支持IPv6双栈。

  • 使用Terway共享ENI模式时,节点的实例规格需支持IPv6且支持的IPv4/IPv6地址数量相同。

专有网络

集群的专有网络VPC。为保障高可用,建议选择2个及以上不同可用区。

  • 自动创建:ACK在已选择的可用区下创建对应vSwitch。

  • 使用已有:选择vSwitch,指定集群的可用区,可新建或使用已有vSwitch。

云资源及计费说明:imageVPC

为专有网络配置 SNAT

使用共享VPC时请勿勾选

节点需访问公网(拉取公网镜像或访问外部服务)时勾选此项,ACK将自动配置NAT网关和SNAT规则,确保集群内资源可以访问公网。

  • VPC中没有NAT网关:ACK自动创建NAT网关,新购EIP,并为集群使用的vSwitch配置SNAT规则。

  • VPC已有NAT网关:ACK判断是否需要额外新购EIP以及配置SNAT规则。当无可用EIP时,将自动新购EIP;当不存在VPC级别的SNAT规则时,将为集群使用的vSwitch配置SNAT规则。

若不勾选,也可在创建集群后自行配置NAT网关和SNAT规则,请参见创建和管理公网NAT网关实例

云资源及计费说明:imageNAT网关imageEIP

API server 访问

ACK自动新建一个按量付费的私网CLB实例作为API Server的内网连接端点。请勿删除该CLB实例,删除后API Server将无法访问且无法恢复。

若需使用已有CLB实例,请提交工单申请。选择使用已有专有网络后,可选择负载均衡来源使用已有

可选开启使用 EIP 暴露 API Server

  • 开放:为 API Server 私网 CLB 实例绑定EIP,支持从公网访问API Server,连接并管理集群。

    这并不代表集群内资源可以访问公网。如需让集群内资源访问公网,需勾选为专有网络配置 SNAT
  • 不开放:仅能在VPC内使用KubeConfig连接并操作集群。

如需后续启用,请参见实现从公网访问API Server
20241201日起,新建CLB实例不再支持包年包月付费类型,同时将新增收取实例费,请参见【产品公告】关于取消新增集群API Server负载均衡CLB包年包月付费的公告传统型负载均衡CLB计费项调整公告

云资源及计费说明:imageCLBimageEIP

网络插件

网络插件是集群中Pod之间网络通信的基础。

关于两者的详细对比,请参见容器网络插件TerwayFlannel对比
  • Flannel:社区开源的轻量级网络插件,在ACK中采用了与阿里云VPC深度集成的VPC专有网络模式,通过直接管理VPC路由表实现Pod间通信。

    • 适用场景:配置简单,资源消耗少,适用于节点规模较小(受VPC路由表配额限制)、需要简化网络配置、无需对容器网络进行自定义控制的场景。

  • Terway:阿里云自研的高性能网络插件,基于弹性网卡ENI实现Pod间通信。

    • 适用场景:提供基于eBPF的网络加速、NetworkPolicyPod级别的vSwitch及安全组等能力,适用于对节点规模、网络性能和安全等有较高需求的高性能计算、游戏、微服务等场景。

    • Pod数量限制:每个Pod占用ENI的一个辅助IP地址,单个ENI可分配的IP有限(取决于实例规格)。因此,节点上可运行的Pod数会受到节点的ENI和辅助IP的配额限制。

      使用共享VPC时,仅支持Terway。

    Terway还提供以下能力。

    详细能力介绍请参见使用Terway网络插件
    • DataPathV2

      仅支持在创建集群时配置

      开启DataPathv2加速模式,Terway将使用eBPF技术优化流量转发路径,为网络密集型应用提供更低的延迟和更高的吞吐量。

      仅支持Alibaba Cloud Linux 3(所有版本)、ContainerOS、Ubuntu,且Linux内核版本需为5.10及以上。详细介绍请参见网络加速

    • NetworkPolicy 支持

      公测中,请在配额平台申请

      支持Kubernetes原生的NetworkPolicy,以实现Pod间的“防火墙”,自定义精细的访问控制规则,以提升集群安全性。

    • Trunk ENI 支持

      允许为Pod配置独立的IP、vSwitch和安全组,适用于需要固定IP或需要对特定Pod进行独立网络策略管理的特殊业务场景,请参见Pod配置固定IP及独立虚拟交换机、安全组

Pod 交换机

仅在选择使用Terway插件时需要配置。

Pod分配IP的虚拟交换机。每个Pod虚拟交换机分别对应一个Worker节点的虚拟交换机,Pod虚拟交换机和Worker节点的虚拟交换机的可用区需保持一致。

重要

Pod虚拟交换机的网段掩码建议不超过19,最大不超过25,否则集群网络可分配的Pod IP地址非常有限,会影响集群的正常使用。

容器网段

Flannel需要配置

Pod分配IP地址的地址池。此网段不能与VPCVPC内已有ACK集群使用的网段重叠,且不能与服务网段重叠。

节点 Pod 数量

Flannel需要配置

定义单个节点上可容纳的最大Pod数量。

服务网段

Service CIDR,为集群内部Service分配IP地址的地址池。此网段不能与VPCVPC内已有集群使用的网段重复,且不能与容器网段重复。

服务转发模式

选择kube-proxy代理模式,即集群Service如何将请求分发至后端Pod。

  • iptables:基于Linux防火墙规则实现流量转发,使用稳定但性能有限。Service数量增加时,防火墙规则也会成倍增长,导致请求处理变慢,适用于存在少量Service的集群。

  • IPVS:高性能的流量分发方案,采用哈希表方式快速定位目标Pod,处理大量Service请求时延时更低。适用于大规模生产集群或对网络性能要求较高的场景。

高级选项

以下配置是基于Kubernetes集群最佳实践提供的功能项 ,保持默认即可。如需调整,请参见配置项描述了解并按照页面提示进行更改。

配置项

描述

是否支持修改

Kubernetes 版本

集群的Kubernetes版本,推荐使用最新版本。请参见ACK版本支持概览了解ACK的版本支持情况。

仅支持创建最近的三个Kubernetes次要版本的集群。

支持手动升级集群自动升级集群

自动升级

开启集群的自动升级能力,保持集群控制面和节点池的周期性自动升级。

关于自动升级的策略和说明,请参见自动升级集群

安全组

使用已有VPC时,支持使用选择已有安全组

安全组应用于集群控制面、默认节点池和未指定自定义安全组的节点池。

相较于普通安全组,企业级安全组可以容纳更多私网IP地址数量,但不支持组内互通功能,详细对比请参见安全组分类

  • 自动创建:出方向默认全部允许,入方向基于推荐配置放行。后续如需修改,请确保在入方向已放行100.64.0.0/10网段。

    该网段用于访问阿里云其他服务,以执行镜像拉取、查询ECS基础信息等操作。
  • 使用已有:ACK默认不会为安全组配置额外的访问规则。需自行管理安全组规则,以避免访问异常,请参见配置集群安全组

集群删除保护

推荐开启,防止通过控制台或OpenAPI误删除集群。

资源组

将集群归属于选择的资源组,便于权限管理和成本分摊。

一个资源只能归属于一个资源组。

标签

为集群绑定键值对标签,作为云资源的标识。

时区

集群使用的时区。默认为浏览器配置的时区。

日志服务

使用已有SLS Project或新建一个SLS Project,用于收集集群应用日志。

同时将启用集群API Server审计功能,收集对Kubernetes API的请求以及请求结果。

如需后续启用,请参见采集ACK集群容器日志使用集群API Server审计功能

云资源及计费说明:imageSLS

报警配置

开启容器服务报警管理,基于SLS、可观测监控 Prometheus 版和云监控数据源,在集群出现异常时向报警联系人分组发送报警通知。

后续操作

部署工作负载并实现负载均衡

相关文档

责任共担模型

ACK托管集群智能托管模式旨在提供自动化、智能化的Kubernetes集群运维功能,减少您在Kubernetes集群运维层面的投入。但在部分场景下,仍需要您履行一部分义务。

阿里云负责

客户负责

共同责任

  • 集群控制面的部署、维护与升级。

  • 集群核心组件的安装、配置、升级。

  • 节点池的自动扩容、自动缩容、操作系统升级、软件版本升级(含 CVE 安全漏洞修复)等。

  • 集群基础信息配置,如网络规划 VPC 配置等。

  • 集群 RAM 权限与 RBAC 的设置与管理。

  • 应用工作负载的部署、运维及合理设置,合理设置部分包含副本数、PreStop 等优雅下线策略、PodDisruptionBudget 策略等,以确保节点可排空运维且无业务中断影响。

  • 及时接收集群、应用的监控告警,根据告警信息做出响应。

  • 集群整体安全性保障,集群的安全责任适用于安全责任共担模型,请参考 安全责任共担模型

  • 故障排查与问题解决。

配额与限制

如集群规模较大或账号资源较多,请遵循使用ACK集群时涉及的配额与限制。详细信息,请参见配额与限制

  • 使用限制:包括ACK配置限制(例如账号余额等)单集群容量限制(单集群内不同Kubernetes资源的最大容量)。

  • 配额限制与提升方式:ACK集群配额限制和ACK依赖云产品(例如ECS、VPC等)的配额限制。如需提升配额,请参见文档获取提升方式。