本文介绍容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)的最新功能发布记录。
背景信息
关于容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的Kubernetes(K8s)版本,请参见ACK版本发布说明。
容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的操作系统包括ContainerOS、Alibaba Cloud Linux 3 容器优化版、Alibaba Cloud Linux 3、Alibaba Cloud Linux 3 Arm版、Alibaba Cloud Linux UEFI 3、Red Hat、Ubuntu、Windows等,请参见操作系统。
2025年06月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | 通过控制台使用AI Profiling | AI Profiling作为基于eBPF和动态进程注入的无侵入式性能分析工具,原生面向Kubernetes容器场景提供,支持对运行GPU任务的容器进程进行在线检测,涵盖多方面的数据采集能力,可以在正在运行的GPU任务上动态启停性能数据采集。而对线上业务来说,可动态挂卸载的Profiling工具可以实时地对在线业务进行较为细致的分析,且无需对业务代码进行修改。 | 全部 | |
GPU 节点自愈 | 节点自愈功能新增支持 GPU 软硬件异常引起的实例异常自愈。 ACK为底层EGS节点、灵骏节点的GPU软硬件异常提供Kubernetes侧节点实例异常自愈能力,支持从故障发现、通知告警、自动隔离、节点排水以及自动修复的全流程提供自动运维能力,同时支持在用户授权后再执行修复,进一步增强了自动化故障运维能力,降低集群运维成本。 | 全部 | ||
CPFS智算版静态存储卷 | CPFS智算版具有超高吞吐量和IOPS性能,支持端到端RDMA网络加速,适用于AIGC、自动驾驶等智算场景。您可以在集群中创建CPFS智算版静态存储卷并在工作负载中使用。 | 全部 | ||
ACK VPD CNI组件 | ACK VPD CNI为ACK托管集群Pro版的灵骏节点提供容器网络管理的能力。ACK VPD CNI作为灵骏节点的容器网络CNI插件,为使用灵骏连接的灵骏节点提供容器网络资源的分配和管理功能。 | 全部 | ||
ack-kms-agent-webhook-injector组件 | ack-kms-agent-webhook-injector 将 KMS Agent 作为Sidecar容器注入Pod,使业务应用可通过本地HTTP接口,借助KMS Agent从KMS实例获取凭据并缓存于内存中,避免敏感信息硬编码,提升数据安全性。 | 全部 | ||
Gateway with Inference Extension组件能力拓展 | Gateway with Inference Extension支持vLLM、SGLang等多种生成式AI推理服务框架,并为基于不同推理服务框架部署的生成式AI推理服务提供增强能力:不仅支持制定灰度发布策略、推理负载均衡、基于模型名称的路由等,还支持为推理服务配置限流与熔断策略。 | 全部 | ||
基于机密虚拟机实现CAA机密容器方案 | 在金融风控、医疗健康等需要实现机密计算的场景下,您可以在ACK集群中通过CAA(Cloud API Adaptor)方案部署机密计算工作负载,基于Intel® TDX技术保护敏感数据免受外部攻击或云厂商的潜在威胁,以满足行业的合规要求。 | 全部 | ||
云原生AI套件 | 通过XXL-JOB调度Dify工作流 | Dify工作流在许多场景中需要依赖调度来实现自动化任务,如风险监控、数据分析、内容生成、数据同步等典型应用场景。然而,Dify原生并不支持调度功能。为解决这一问题,本实践介绍如何集成XXL-JOB分布式任务调度,用于实现工作流应用的调度和状态监控,并确保工作流的稳定运行。 | 全部 |
2025年05月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | 支持 Kubernetes 1.33 | 新增支持 Kubernetes 1.33 版本。您可在创建集群时直接创建 1.33 版本的集群,也可将低版本集群升级至 1.33 版本。 | 全部 | |
默认安装ack-ram-authenticator组件 | 自Kubernetes 1.33版本起,新创建的ACK托管集群会默认安装最新版本的ack-ram-authenticator托管组件,不会额外占用您的集群节点资源。 | 全部 | ||
containerd发布2.1.1版本 | containerd 2.1.1版本支持NRI (Node Resource Interface) 能力、CDI (Container Device Interface) 能力、Sandbox API等。 | 全部 | ||
支持ossfs 2.0 | ossfs 2.0是基于客户端文件系统(Filesystem in USErspace, FUSE) 的客户端,可以将阿里云OSS挂载成本地文件系统,业务容器能像访问本地文件一样通过POSIX操作访问OSS数据。ossfs 2.0相较于ossfs 1.0在顺序读写和高并发小文件读取等方面实现了性能提升,适用于对存储访问性能要求较高的场景(如AI训练、推理、大数据处理、自动驾驶等)。 | 全部 | ||
分布式云容器平台 ACK One | 使用ApplicationSet协调多环境部署与应用依赖关系 | 新增最佳实践,介绍如何基于Argo CD的Progressive Syncs分阶段同步功能,结合ApplicationSet的多环境资源编排能力,构建一套支持开发与预发布环境间多应用依赖管理的自动化部署体系。 | 全部 |
2025年04月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | 创建和管理灵骏节点池 | 支持在ACK托管集群Pro版中创建并管理灵骏节点池。 | 全部 | |
使用指定实例属性配置节点池 | 支持通过指定实例属性(例如vCPU和内存)的方式配置节点池的实例类型。节点池会自动筛选符合要求的实例规格进行扩容,提高扩容成功率。 | 全部 | ||
实时AI Profiling | 在Kubernetes容器场景中,AI Profiling作为基于eBPF和动态进程注入的无侵入式性能分析工具,支持对运行GPU任务的容器进程进行在线检测。对线上业务来说,可动态挂卸载的Profiling工具可以实时地对在线业务进行较为细致的分析,无需对业务代码进行修改。 | 全部 | ||
开启抢占 | 集群资源紧张时,高优任务可能会因资源不足而无法运行。开启抢占(Preemption)后,ACK Scheduler能够通过资源模拟判断并驱逐低优任务Pod,释放计算资源以优先保障高优任务快速启动。 | 全部 | ||
通过Gateway with Inference Extension访问服务 | Gateway with Inference Extension组件基于Envoy Gateway项目构建,支持完整的Gateway API基础能力及开源Envoy Gateway扩展资源。 | 全部 | ||
生成式AI服务增强 | 支持使用Gateway with Inference Extension组件实现智能路由和高效流量管理、生成式AI推理服务灰度发布、推理服务的请求熔断、推理服务的流量镜像等功能。 | 全部 | ||
PVC到PVC的存储卷备份恢复 | 支持在云上ACK集群内、同地域、跨地域ACK集群之间进行云盘数据的备份恢复。源集群完成备份操作后,可通过备份中心在当前集群或其他集群恢复出一批新的存储声明及对应存储卷,无需调整任何工作负载YAML配置即可直接挂载使用。 | 全部 | ||
发布alibabacloud-privateca-issuer | 发布AlibabaCloud Private CA Issuer,支持通过cert-manager在集群中创建管理阿里云PCA证书,已同步上线至ACK应用市场。 | 全部 | 无 | |
在ACK托管集群(智能托管模式)中部署工作负载并实现负载均衡 | 介绍如何在ACK托管集群(智能托管模式)中部署一个工作负载,并通过ALB Ingress实现公网访问。完成后,您可以通过设定的域名访问该应用,实现外部流量的高效管理和负载均衡。 | 全部 | ||
Datapath V2最佳实践 | 介绍在使用Terway网络插件的集群中,启用Datapath V2后如何优化集群的网络配置,例如Conntrack参数配置、Identity资源管理等,以提升集群性能和稳定性。 | 全部 | ||
Dify组件升级指南 | 新增最佳实践介绍如何将ack-dify从旧版本升级至v1.0.0及以上,包括备份数据、安装插件迁移工具至插件系统、启用新插件生态系统等。 | 全部 | ||
分布式云容器平台 ACK One | 使用PrivateLink解决数据中心网段IP冲突 | 数据中心的Kubernetes集群通过专线接入ACK One注册集群后,在使用Serverless算力资源时可能因内网中存在使用相同网段的其他服务而产生冲突。请使用PrivateLink解决数据中心网段IP冲突。 | 全部 | |
跨地域调度ACS Pod | ACK One注册集群支持将多地域的Serverless算力资源无缝接入Kubernetes集群,实现跨地域GPU资源的动态调度与统一管理。 | 全部 | ||
日志采集 | 支持通过SLS CRD或环境变量的方式配置日志采集,基于阿里云日志服务SLS自动采集容器日志。 | 全部 | ||
构建多集群CD | 结合云效自身的CD能力和ACK One的应用分发功能,可快速将单集群持续交付构建成多集群持续交付系统,并获得强大的多集群资源调度与分发能力。 | 全部 | ||
容器服务 Edge 版 | 发布1.32版本 | 支持1.32版本,功能特性包括优化CoreDNS、kube-proxy和kubelet对kube-apiserver的请求、降低云边通信流量等。 | 全部 | |
专线环境下的网元配置 | 支持将本地数据中心IDC服务器设备通过公网或专线形式接入进行容器化管理。当通过专线接入集群时,您需要在接入前完成基础设施的网元配置。 | 全部 | ||
云原生AI套件 | HistoryServer组件支持 | Ray原生Dashboard仅在集群运行时可用,集群终止后用户无法获取历史日志与监控数据。可基于RayCluster HistoryServer在集群运行期间实时采集节点日志并持久化存储至OSS。 | 全部 | |
KubeRay组件支持 | 支持部署KubeRay Operator组件,并集成阿里云SLS与Prometheus监控,从而增强日志管理、系统可观测性及高可用性。 | 全部 |
2025年03月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | ACK托管集群Pro版支持智能托管模式 | 创建ACK托管集群时,可开启智能托管模式,快速创建一个符合最佳实践的Kubernetes集群。 集群创建后,将默认创建一个智能托管节点池,该节点池将根据工作负载按需动态扩缩容。同时,ACK 将负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责。 | 全部 | |
支持为集群控制面和数据面组件启用链路追踪 | 为集群API Server或kubelet启用链路追踪后,其链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。 | 全部 | ||
发布高风险KubeConfig短信和邮件通知功能 | 支持通过短信和邮件提醒用户当前账号下存在已删除但仍在存在风险的KubeConfig。 | 全部 | 无 | |
支持基于ACK Gateway with Inference Extension实现智能路由与流量管理 | 您可以使用ACK Gateway with Inference Extension组件配置推理服务扩展,以实现智能路由和高效流量管理。 | 全部 | ||
支持基于Knative部署vLLM推理应用 | 传统的基于GPU利用率的弹性伸缩策略无法准确反映大模型推理服务的实际负载情况。Knative提供的自动扩缩容机制KPA(Knative Pod Autoscaler)能够根据QPS或RPS来调整资源分配,更直接地反映推理服务的性能表现。 | 全部 | ||
分布式云容器平台 ACK One | 支持多集群舰队组件统一管理 | ACK One舰队为集群运维人员提供了统一且自动化的组件管理能力,可以定义包含多个组件及其版本的基线,并将其部署到多个集群,同时支持组件配置、部署批次和回滚等功能,从而提升系统的稳定性。 | 全部 | |
支持动态分发和重调度 | ACK One舰队可以通过PropagationPolicy根据子集群的可用资源对工作负载进行副本的切分。同时,ACK One舰队默认开启重调度能力,每两分钟进行一次自动检测,当Pod处于不可调度状态超过30秒时,将触发该副本的重调度。 | 全部 | ||
云原生AI套件 | 支持设置Slurm队列优先级 | 新增最佳实践,介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。 | 全部 |
2025年02月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | 支持修改控制面安全组、时区 | 当创建集群选择的安全组和时区不再符合要求时,可在集群基本信息中修改控制面的安全组和集群时区。 | 全部 | |
节点池支持自定义 containerd 配置 | 您可以在节点池中自定义节点的 containerd 参数配置,例如给指定镜像仓库同时配置多个 Mirror 仓库,或者指定跳过某个镜像仓库的安全证书的验证。 | 全部 | ||
节点池新增弹性强度提示 | 节点池扩容时,可能由于实例库存不足、ECS实例规格在指定可用区不支持等原因导致扩容失败,可通过弹性强度来评估节点池配置的可用性以及实例供应的健康度,并获取相应的配置建议。 | 全部 | ||
支持启用批量任务编排能力 | Argo Workflows是一个Kubernetes原生的工作流引擎,支持通过YAML或Python编排并行任务,简化容器化应用的自动化和管理工作,适用于CI/CD流水线、数据处理、机器学习等场景。可通过安装Argo Workflows组件启用批量任务编排能力,使用阿里云Argo CLI或控制台界面创建和管理工作流任务。 | 全部 | ||
GPU故障检测 | ACK提供的ack-node-problem-detector组件基于社区开源项目node-problem-detector进一步改造和增强了集群节点异常事件监控能力。该组件提供丰富的GPU相关的故障检测项以增强GPU场景的故障发现能力,当发现对应的故障时会根据故障类型产生相应的Kubernetes Event或Kubernetes Node Condition。 | 全部 | ||
在Knative服务中基于Fluid加速Pod启动 | Fluid是一个开源的、Kubernetes原生的分布式数据集编排和加速引擎,主要应用于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。本实践介绍如何在Knative中基于Fluid加速模型推理服务Pod的启动,以提升应用响应效率。 | 全部 | ||
分布式云容器平台 ACK One | 基于实际剩余资源的多集群Spark作业调度与分发 | 本实践将介绍如何通过ACK One舰队和ACK Koordinator组件,根据各集群实际剩余资源(而非请求资源)来调度和分发多集群Spark作业,以最大化利用多集群中的闲置资源,并通过优先级控制和离线混合部署确保在线服务的正常运行。 | 全部 | |
ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务 | 通过将本地数据中心的Kubernetes集群接入ACK One注册集群,企业可以无缝扩展算力资源,充分利用阿里云强大的ACS GPU算力,实现DeepSeek推理模型的高效部署。 | 全部 | ||
容器服务 Edge 版 | 支持新增Pod虚拟交换机 | 在ENS边缘场景中,如果ACK Edge集群使用Terway Edge插件,当虚拟交换机的IP不足或者需要扩展Pod网段时,您可以通过新增Pod虚拟交换机来增加IP地址资源供集群使用。 | 全部 | |
部署Deepseek-R1模型 | 为解决DeepSeek推理服务对GPU规格需求越来越高的问题,可通过ACK Edge集群管理本地IDC的GPU机器,并借助集群的虚拟节点快速接入云上ACS Serverless GPU算力。该方案可以使推理任务优先在IDC GPU上运行,当本地IDC GPU资源不足时,任务将自动调度至云上的ACS Serverless GPU,满足业务扩展需求的同时降低成本。 | 全部 | ||
GPU资源监控 | ACK Edge集群可纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。可在ACK Edge集群中接入阿里云Prometheus监控,使数据中心和边缘计算的GPU节点拥有与云上一致的可观测能力。 | 全部 | ||
云原生AI套件 | 基于ACK部署DeepSeek蒸馏模型推理服务 | 以DeepSeek-R1-Distill-Qwen-7B模型为例,介绍如何在阿里云容器服务ACK中使用KServe部署生产可用的DeepSeek蒸馏模型推理服务。 | 全部 | |
基于ACK多机分布式部署DeepSeek满血版推理部署实战 | 本实践介绍基于ACK的DeepSeek-R1-671B大模型分布式推理实战方案。该方案使用混合并行策略,结合阿里云Arena工具,实现在2台节点上的高效分布式部署,并介绍如何将部署的DeepSeek-R1无缝集成至Dify平台,快速构建支持长文本理解的企业级智能问答系统。 | 全部 |
2025年01月
产品 | 功能名称 | 功能描述 | 发布地域 | 相关文档 |
容器服务 Kubernetes 版 | 节点池支持镜像按需加速能力 | ACK基于DADI(Data Accelerator for Disaggregated Infrastructure)镜像加速技术支持容器镜像的按需加载,实现镜像数据免全量下载以及在线解压,以显著缩短应用启动时间。 | 全部 | |
新增支持Alibaba Cloud Linux 3 容器优化版操作系统 | Alibaba Cloud Linux 3 容器优化版(即Alibaba Cloud Linux 3.2104 LTS 64位容器优化版)是基于 Alibaba Cloud Linux 默认标准镜像针对容器场景进行优化的镜像版本。针对容器场景更高业务部署密度、更快启动速度、更高安全隔离诉求等特点,阿里云结合容器服务 Kubernetes 版中海量客户实战经验,推出自研云原生操作系统 Alibaba Cloud Linux 3 容器优化版镜像。 | 全部 | ||
支持 Kubernetes 1.32 | ACK 现已新增支持 Kubernetes 1.32 版本,您可在创建集群时直接创建 1. 32 版本的集群,也可将低版本集群升级至 1.32 版本。 | 全部 | ||
支持通过ElasticQuotaTree与任务队列提升资源利用率 | 为了让不同团队和任务共享集群中的计算资源,同时确保资源的合理分配和隔离,您可以基于ack-kube-queue、ElasticQuotaTree和ack-scheduler实现资源的合理、灵活分配。 | 全部 | ||
新增使用资源组对集群资源进行精细化控制的最佳实践 | 为了更加高效地管理容器服务 Kubernetes 版的资源,您可以使用资源组对资源进行分组管理。资源组使您能够按照部门、项目、环境等维度对资源进行分组,并结合访问控制(RAM),在单个阿里云账号内实现资源的隔离和精细化权限管理。 | 全部 | ||
分布式云容器平台 ACK One | ACK One注册集群接入ACS算力 | 支持在ACK One注册集群中使用ACS提供的容器算力。 | 全部 | |
支持使用原生Service域名跨集群服务访问 | ACK One多集群Service支持通过MultiClusterService实现用原生Service域名跨集群服务访问。您无需修改业务代码、业务Pod的DNSConfig配置或CoreDNS配置,直接使用原生Service便可实现跨集群流量路由。 | 全部 | ||
支持通过Go SDK访问多集群资源 | 若您希望在平台中集成ACK One舰队以访问各子集群资源,可以利用Go SDK进行操作。 | 全部 | ||
容器服务 Edge 版 | 支持云端节点伸缩 | 当线下节点资源不足时,节点自动伸缩能力可以为ACK Edge集群自动扩容云上节点,进行调度容量的补充。 | 全部 | |
支持混合云LLM弹性推理服务部署 | 通过安装ack-kserve组件,结合ACK Edge集群的云上弹性功能,实现混合云LLM弹性推理服务部署,帮您灵活调度云上云下资源,降低LLM推理服务运营成本。 | 全部 | ||
支持共享GPU调度能力 | 通过共享GPU调度能力,您可以将多个Pod调度到同一张GPU卡上,以共享GPU的计算资源,从而提高GPU的利用率并节省成本。
| 全部 | ||
支持统一管理多地域的ECS资源 | 新增最佳实践介绍如何通过ACK Edge集群将分布在不同地域的计算资源纳入统一管理,实现云原生应用的全生命周期管理和高效资源调度。 | 全部 |
更多信息
有关ACK的历史功能发布记录,请参见历史功能发布记录(2025年之前)。