容器服务ACK 2025年功能发布记录

本文介绍容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)的最新功能发布记录。

背景信息

  • 关于容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的Kubernetes(K8s)版本,请参见版本说明

  • 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)支持的操作系统包括ContainerOS、Alibaba Cloud Linux 3 容器优化版、Alibaba Cloud Linux 3、Alibaba Cloud Linux 3 Arm版、Alibaba Cloud Linux UEFI 3、Red Hat、Ubuntu、Windows等,请参见操作系统

202510

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

新增OSS存储卷性能调优最佳实践

使用OSS存储卷时,如遇读写性能(如时延、吞吐)未达到预期的情况,可参考本文提供的排查思路和优化实践,系统性地定位并解决性能问题。

全部

OSS存储卷性能调优最佳实践

支持使用DRA调度GPU

AI训练和推理场景中,当多个应用需要共享GPU资源时,为突破传统设备插件的调度限制,可在ACK集群中部署NVIDIA DRA驱动,通过Kubernetes DRA API实现PodGPU动态分配与细粒度资源控制,提升GPU利用率并降低成本。

全部

使用DRA调度GPU

Gateway with Inference Extension支持路由外部MaaS服务

当 ACK 集群对接外部 MaaS 服务(如百炼)时,为统一处理 API 密钥和请求路径,可基于AI推理网关(Gateway with Inference Extension),配置路由规则(HTTPRoute),实现请求凭证的自动注入及URL重写,从而快速集成模型服务。

全部

使用Gateway with Inference Extension路由外部MaaS服务

分布式云容器平台 ACK One

注册集群支持ACS GPU-HPN容量预留

通过将本地 Kubernetes 集群注册到云端,结合 GPU-HPN 容量预留机制,企业可以实现云下云上 GPU 资源的统一管理和智能调度,为 AI 训练、推理等关键工作负载提供稳定、高性能的计算保障。

全部

ACK One注册集群使用ACS GPU HPN算力示例

支持通过自建Prometheus采集控制面组件指标

对于使用自建Prometheus监控系统的混合云环境,为统一纳管ACK One注册集群的控制面健康状态,可安装Metrics Aggregator组件并配置ServiceMonitor,从而将核心组件指标集成到现有监控体系,实现统一告警与观测。

全部

通过自建Prometheus采集控制面组件指标

云原生AI套件

支持使用Arena提交eRDMA加速的PyTorch分布式训练作业

在多节点 GPU 训练中网络通信延迟拖累整体性能时,为缩短模型训练周期,可利用 Arena 提交 PyTorch 分布式作业并配置 eRDMA 网络加速,实现低延迟、高吞吐的节点间通信,提升训练效率和集群利用率。

全部

使用Arena提交eRDMA加速的PyTorch分布式训练作业

202509

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持 Kubernetes 1.34

支持 Kubernetes 1.33 版本,可在创建集群时直接创建 1.34 版本的集群,也可将低版本集群升级至 1.34 版本。

全部

Kubernetes 1.34

支持混合云节点池

当企业需要将本地服务器资源纳入ACK集群统一管理时,为实现云上云下资源的弹性调度与成本优化,可通过ACK托管集群Pro版创建混合云节点池,将已有的混合云节点加入集群,从而在保持统一编排的同时充分利用现有IT资产。

全部

创建和管理混合云节点池

支持配置混合云节点池DNS解析

混合云节点池如通过云上CoreDNS解析域名,频繁的访问会加重专线负载,还可能出现因专线不稳定导致的域名解析失败,配置NodeLocal DNSCache可减少这些问题的影响。

全部

配置混合云节点池的NodeLocal DNSCache

支持使用Terway Hybrid网络插件

混合云节点池接入本地IDC,其复杂的网络拓扑和跨域路由需求超出了常规容器网络插件的能力范围。Terway Hybrid网络插件专为混合云节点池设计,它能确保集群内Pod(处于IDC或云端)之间的网络互通。

全部

使用Terway Hybrid网络插件

ossfs 2.0支持RRSA鉴权方式

对于需要持久化存储或在多Pod间共享数据的应用,可通过动态PVOSS Bucket挂载为 ossfs 2.0 存储卷。建议使用RRSA鉴权方式,安全级别更高,提供自动轮换的临时凭证,支持Pod级权限隔离,适用于生产、多租户等高安全要求的环境。

全部

使用ossfs 2.0动态存储卷

支持AI内容审查

ACK上运行生成式AI服务时,为实现内容合规性审查,可利用Gateway API推理扩展配置ACKTrafficFilter插件对接阿里云内容安全审核服务,从而在网关层自动拦截不当内容,满足相关监管和法规要求。

全部

使用Gateway with Inference Extension实现AI内容审查

分布式云容器平台 ACK One

支持接入云上GPU算力

ACK One注册集群支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。

全部

接入云上GPU算力

支持单集群应用迁移至舰队并分发到多集群

为解决应用多集群部署时的重复操作,易出错,难同步等问题,可使用AMC命令行工具将应用快速部署到多个集群,并实现后续统一管理和自动同步更新。

全部

单集群应用迁移至舰队并分发到多集群

202508

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持使用智能推理路由实现KVCache感知的负载均衡

KV Cache感知的负载均衡专为生成式AI推理场景设计,通过动态分配请求至最优计算节点,可以显著提升大语言模型(LLM)服务效率。

全部

使用精准模式的前缀缓存感知路由能力

支持自定义CNI插件

ACK默认提供的TerwayFlannel CNI插件,能够满足绝大多数的容器网络需求。但在某些场景下,若您需要使用其他CNI插件中的特定功能,ACK支持通过Bring your own Container Network Interface(简称BYOCNI)模式在集群中安装自定义CNI插件。

全部

ACK集群使用自定义CNI插件

智能托管模式集群支持托管版策略治理组件

为了满足集群合规性要求、提升集群安全性,推荐启用安全策略管理功能。安全策略规则包括Infra、Compliance、PSPK8s-general。

全部

启用安全策略管理

Knative 支持ACS算力

Knative Service支持配置使用容器计算服务(ACS)算力,通过其多样化的计算类型和算力质量,满足不同业务场景的负载需求并优化成本。

全部

使用ACS资源

Gateway with Inference Extension支持更灵活的配置

  • 支持自定义推理扩展配置:可通过配置注解调整路由策略,或通过创建ConfigMap来修改或覆盖扩展的部署配置。

  • 支持自定义Gateway配置:可通过调整EnvoyProxy资源配置来调整实际的Gateway参数,如Service类型、Deployment副本数以及Resources等。

全部

SGLang PD分离服务配置推理路由

Prefill/Decode分离架构(PD分离),是当前主流的LLM推理优化技术,通过将LLM推理中的两个核心阶段解耦并分开部署在不同GPU上,避免资源争抢,从而显著降低TPOT,提升系统吞吐。

全部

使用Gateway with Inference ExtensionSGLang PD分离服务配置推理路由

支持在ACK异构机密计算集群中安全部署vLLM推理服务

大语言模型(LLM)推理涉及敏感数据和核心模型资产,在非可信环境中运行时会面临数据和模型泄露风险。ACK提供的机密AI解决方案(ACK-CAI),通过整合Intel TDXGPU TEE等硬件机密计算技术,为模型推理提供端到端的安全保障。

全部

ACK异构机密计算集群中安全部署vLLM推理服务

云原生AI套件

推出AI推理套件

随着大语言模型(LLM)的广泛应用,如何在生产环境中实现其高效、稳定且大规模的部署与运维,已成为企业面临的核心挑战。云原生 AI 推理套件(AI Serving Stack)基于阿里云容器服务,专为云原生AI推理而设计的端到端解决方案。该套件致力于解决LLM推理的全生命周期问题,提供从部署管理、智能路由、弹性伸缩、深度可观测的一体化能力。无论是刚刚起步还是已经拥有大规模AI业务,云原生AI推理套件都能轻松驾驭复杂的云原生AI推理场景。

全部

AI推理套件

202507

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持仅加固模式访问ECS实例元数据

支持在 ECS 实例内部通过元数据服务(Metadata Service)获取 ECS 元数据(如实例 ID、VPC 信息、网卡信息等)。在 ACK 集群中,节点的实例元数据访问模式默认为同时兼容普通模式和加固模式。您可以调整为仅加固模式(IMDSv2),进一步增强实例元数据服务的安全性。

全部

使用仅加固模式访问ECS实例元数据

支持订阅海外源镜像

如需定期从Docker Hub、GCR、Quay等海外源镜像仓库同步镜像到企业版实例中,可以使用企业版实例的制品订阅能力。

全部

订阅海外源镜像

支持通过CNFS使用EFC客户端挂载NAS

EFC提供了分布式缓存等能力以提升文件存储NAS的访问性能,同时支持高并发和大规模数据集的并行访问,适用于数据密集型和高并发访问的容器化应用场景(例如大数据分析、AI训练与推理等)。相比使用默认的NFS协议挂载NAS,使用EFC挂载NAS可以加速文件访问,提升读写性能。

全部

通过CNFS使用EFC客户端挂载NAS

分布式云容器平台 ACK One

支持GitOps能力白屏化体验

可通过控制台聚焦GitOps完整能力的使用:功能开启/关闭、开启公网访问和ACL配置、ApplicationSet UI、Argo CD Configmap配置与组件重启,以及监控、日志可观测能力等。

全部

GitOps快速入门

多集群GitOps支持Argo CD Configmap配置

ACK One支持通过配置Argo CDConfigMap来管理GitOps相关功能和权限。

全部

配置Argo CD ConfigMap

支持为多集群舰队开启库存感知的弹性调度

ACK One多集群舰队在多地域应用服务部署场景下,针对多地域资源调配的难题设计并实现了基于库存感知的智能调度器。通过库存感知调度机制和即时弹性配合使用,当舰队管理的多个集群现有资源不足时,会将应用服务调度到有库存的集群中,该集群的即时弹性会进行扩容所需节点来承接相关的应用服务,以提升调度成功,降低资源成本。

全部

为多集群舰队开启库存感知的弹性调度

容器服务 Edge 版

支持专线接入配置私网连接

ACK Edge集群支持通过专线接入网络,这为ACK Edge集群边缘节点安全、高效地访问ACKACR等云服务,解决了网络冲突和无固定IP等问题。

全部

专线接入配置私网连接

202506

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

通过控制台使用AI Profiling

AI Profiling作为基于eBPF和动态进程注入的无侵入式性能分析工具,原生面向Kubernetes容器场景提供,支持对运行GPU任务的容器进程进行在线检测,涵盖多方面的数据采集能力,可以在正在运行的GPU任务上动态启停性能数据采集。而对线上业务来说,可动态挂卸载的Profiling工具可以实时地对在线业务进行较为细致的分析,且无需对业务代码进行修改。

全部

AI Profiling

GPU 节点自愈

节点自愈功能新增支持 GPU 软硬件异常引起的实例异常自愈。

ACK为底层EGS节点、灵骏节点的GPU软硬件异常提供Kubernetes侧节点实例异常自愈能力,支持从故障发现、通知告警、自动隔离、节点排水以及自动修复的全流程提供自动运维能力,同时支持在用户授权后再执行修复,进一步增强了自动化故障运维能力,降低集群运维成本。

全部

开启节点自愈

CPFS智算版静态存储卷

CPFS智算版具有超高吞吐量和IOPS性能,支持端到端RDMA网络加速,适用于AIGC、自动驾驶等智算场景。您可以在集群中创建CPFS智算版静态存储卷并在工作负载中使用。

全部

使用CPFS智算版静态存储卷

ACK VPD CNI组件

ACK VPD CNIACK托管集群Pro的灵骏节点提供容器网络管理的能力。ACK VPD CNI作为灵骏节点的容器网络CNI插件,为使用灵骏连接的灵骏节点提供容器网络资源的分配和管理功能。

全部

ACK VPD CNI

ack-kms-agent-webhook-injector组件

ack-kms-agent-webhook-injector 将 KMS Agent 作为Sidecar容器注入Pod,使业务应用可通过本地HTTP接口,借助KMS AgentKMS实例获取凭据并缓存于内存中,避免敏感信息硬编码,提升数据安全性。

全部

为应用导入阿里云KMS服务凭据

Gateway with Inference Extension组件能力拓展

Gateway with Inference Extension支持vLLM、SGLang等多种生成式AI推理服务框架,并为基于不同推理服务框架部署的生成式AI推理服务提供增强能力:不仅支持制定灰度发布策略、推理负载均衡、基于模型名称的路由等,还支持为推理服务配置限流与熔断策略。

全部

Gateway with Inference Extension概述

基于机密虚拟机实现CAA机密容器方案

在金融风控、医疗健康等需要实现机密计算的场景下,您可以在ACK集群中通过CAA(Cloud API Adaptor)方案部署机密计算工作负载,基于Intel® TDX技术保护敏感数据免受外部攻击或云厂商的潜在威胁,以满足行业的合规要求。

全部

基于机密虚拟机实现CAA机密容器方案

云原生AI套件

通过XXL-JOB调度Dify工作流

Dify工作流在许多场景中需要依赖调度来实现自动化任务,如风险监控、数据分析、内容生成、数据同步等典型应用场景。然而,Dify原生并不支持调度功能。为解决这一问题,本实践介绍如何集成XXL-JOB分布式任务调度,用于实现工作流应用的调度和状态监控,并确保工作流的稳定运行。

全部

通过XXL-JOB调度Dify工作流应用

202505

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持 Kubernetes 1.33

新增支持 Kubernetes 1.33 版本。您可在创建集群时直接创建 1.33 版本的集群,也可将低版本集群升级至 1.33 版本。

全部

Kubernetes 1.33

默认安装ack-ram-authenticator组件

Kubernetes 1.33版本起,新创建的ACK托管集群会默认安装最新版本的ack-ram-authenticator托管组件,不会额外占用您的集群节点资源。

全部

【产品公告】关于ACK托管集群自1.33版本起默认安装ack-ram-authenticator组件的公告

containerd发布2.1.1版本

containerd 2.1.1版本支持NRI (Node Resource Interface) 能力、CDI (Container Device Interface) 能力、Sandbox API等。

全部

containerd运行时发布记录

支持ossfs 2.0

ossfs 2.0是基于客户端文件系统(Filesystem in USErspace, FUSE) 的客户端,可以将阿里云OSS挂载成本地文件系统,业务容器能像访问本地文件一样通过POSIX操作访问OSS数据。ossfs 2.0相较于ossfs 1.0在顺序读写和高并发小文件读取等方面实现了性能提升,适用于对存储访问性能要求较高的场景(如AI训练、推理、大数据处理、自动驾驶等)。

全部

ossfs 2.0

分布式云容器平台 ACK One

使用ApplicationSet协调多环境部署与应用依赖关系

新增最佳实践,介绍如何基于Argo CDProgressive Syncs分阶段同步功能,结合ApplicationSet的多环境资源编排能力,构建一套支持开发与预发布环境间多应用依赖管理的自动化部署体系。

全部

使用ApplicationSet协调多环境部署与应用依赖关系

202504

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

创建和管理灵骏节点池

支持在ACK托管集群Pro中创建并管理灵骏节点池。

全部

灵骏节点池

使用指定实例属性配置节点池

支持通过指定实例属性(例如vCPU和内存)的方式配置节点池的实例类型。节点池会自动筛选符合要求的实例规格进行扩容,提高扩容成功率。

全部

使用指定实例属性配置节点池

实时AI Profiling

Kubernetes容器场景中,AI Profiling作为基于eBPF和动态进程注入的无侵入式性能分析工具,支持对运行GPU任务的容器进程进行在线检测。对线上业务来说,可动态挂卸载的Profiling工具可以实时地对在线业务进行较为细致的分析,无需对业务代码进行修改。

全部

通过命令行使用AI Profiling

开启抢占

集群资源紧张时,高优任务可能会因资源不足而无法运行。开启抢占(Preemption)后,ACK Scheduler能够通过资源模拟判断并驱逐低优任务Pod,释放计算资源以优先保障高优任务快速启动。

全部

开启抢占

通过Gateway with Inference Extension访问服务

Gateway with Inference Extension组件基于Envoy Gateway项目构建,支持完整的Gateway API基础能力及开源Envoy Gateway扩展资源。

全部

通过Gateway with Inference Extension访问服务

生成式AI服务增强

支持使用Gateway with Inference Extension组件实现智能路由和高效流量管理、生成式AI推理服务灰度发布、推理服务的请求熔断、推理服务的流量镜像等功能。

全部

生成式AI服务增强

PVCPVC的存储卷备份恢复

支持在云上ACK集群内、同地域、跨地域ACK集群之间进行云盘数据的备份恢复。源集群完成备份操作后,可通过备份中心在当前集群或其他集群恢复出一批新的存储声明及对应存储卷,无需调整任何工作负载YAML配置即可直接挂载使用。

全部

备份中心

发布alibabacloud-privateca-issuer

发布AlibabaCloud Private CA Issuer,支持通过cert-manager在集群中创建管理阿里云PCA证书,已同步上线至ACK应用市场。

全部

ACK托管集群(智能托管模式)中部署工作负载并实现负载均衡

介绍如何在ACK托管集群(智能托管模式)中部署一个工作负载,并通过ALB Ingress实现公网访问。完成后,您可以通过设定的域名访问该应用,实现外部流量的高效管理和负载均衡。

全部

部署工作负载并实现负载均衡

Datapath V2最佳实践

介绍在使用Terway网络插件的集群中,启用Datapath V2后如何优化集群的网络配置,例如Conntrack参数配置、Identity资源管理等,以提升集群性能和稳定性。

全部

Datapath V2下最佳实践

Dify组件升级指南

新增最佳实践介绍如何将ack-dify从旧版本升级至v1.0.0及以上,包括备份数据、安装插件迁移工具至插件系统、启用新插件生态系统等。

全部

基于ACK集群的Dify组件升级操作

分布式云容器平台 ACK One

使用PrivateLink解决数据中心网段IP冲突

数据中心的Kubernetes集群通过专线接入ACK One注册集群后,在使用Serverless算力资源时可能因内网中存在使用相同网段的其他服务而产生冲突。请使用PrivateLink解决数据中心网段IP冲突。

全部

使用PrivateLink解决数据中心网段IP冲突

跨地域调度ACS Pod

ACK One注册集群支持将多地域的Serverless算力资源无缝接入Kubernetes集群,实现跨地域GPU资源的动态调度与统一管理。

全部

跨地域调度ACS Pod

日志采集

支持通过SLS CRD或环境变量的方式配置日志采集,基于阿里云日志服务SLS自动采集容器日志。

全部

构建多集群CD

结合云效自身的CD能力和ACK One的应用分发功能,可快速将单集群持续交付构建成多集群持续交付系统,并获得强大的多集群资源调度与分发能力。

全部

基于ACK One与云效构建多集群CD

容器服务 Edge 版

发布1.32版本

支持1.32版本,功能特性包括优化CoreDNS、kube-proxykubeletkube-apiserver的请求、降低云边通信流量等。

全部

ACK Edge发布Kubernetes 1.32版本说明

专线环境下的网元配置

支持将本地数据中心IDC服务器设备通过公网或专线形式接入进行容器化管理。当通过专线接入集群时,您需要在接入前完成基础设施的网元配置。

全部

专线环境下的网元配置

云原生AI套件

HistoryServer组件支持

Ray原生Dashboard仅在集群运行时可用,集群终止后用户无法获取历史日志与监控数据。可基于RayCluster HistoryServer在集群运行期间实时采集节点日志并持久化存储至OSS。

全部

ACK中安装HistoryServer组件

KubeRay组件支持

支持部署KubeRay Operator组件,并集成阿里云SLSPrometheus监控,从而增强日志管理、系统可观测性及高可用性。

全部

ACK中安装KubeRay组件

202503

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

ACK托管集群Pro支持智能托管模式

创建ACK托管集群时,可开启智能托管模式,快速创建一个符合最佳实践的Kubernetes集群。

集群创建后,将默认创建一个智能托管节点池,该节点池将根据工作负载按需动态扩缩容。同时,ACK 将负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责。

全部

支持为集群控制面和数据面组件启用链路追踪

为集群API Serverkubelet启用链路追踪后,其链路信息将自动上报至可观测链路 OpenTelemetry 版,提供可视化的链路明细、实时拓扑等监控数据。

全部

发布高风险KubeConfig短信和邮件通知功能

支持通过短信和邮件提醒用户当前账号下存在已删除但仍在存在风险的KubeConfig。

全部

支持基于ACK Gateway with Inference Extension实现智能路由与流量管理

您可以使用ACK Gateway with Inference Extension组件配置推理服务扩展,以实现智能路由和高效流量管理。

全部

使用Gateway with Inference Extension实现智能路由与流量管理

支持基于Knative部署vLLM推理应用

传统的基于GPU利用率的弹性伸缩策略无法准确反映大模型推理服务的实际负载情况。Knative提供的自动扩缩容机制KPA(Knative Pod Autoscaler)能够根据QPSRPS来调整资源分配,更直接地反映推理服务的性能表现。

全部

基于Knative部署vLLM推理应用

分布式云容器平台 ACK One

支持多集群舰队组件统一管理

ACK One舰队为集群运维人员提供了统一且自动化的组件管理能力,可以定义包含多个组件及其版本的基线,并将其部署到多个集群,同时支持组件配置、部署批次和回滚等功能,从而提升系统的稳定性。

全部

多集群组件管理

支持动态分发和重调度

ACK One舰队可以通过PropagationPolicy根据子集群的可用资源对工作负载进行副本的切分。同时,ACK One舰队默认开启重调度能力,每两分钟进行一次自动检测,当Pod处于不可调度状态超过30秒时,将触发该副本的重调度。

全部

动态分发和重调度

云原生AI套件

支持设置Slurm队列优先级

新增最佳实践,介绍在Slurm系统环境下,当出现作业提交或作业状态变化时,如何通过恰当的队列配置策略来实现尽可能多的任务调度处理,以达到最佳性能。

全部

基于ACK集群设置Slurm队列优先级

202502

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

支持修改控制面安全组、时区

当创建集群选择的安全组和时区不再符合要求时,可在集群基本信息中修改控制面的安全组和集群时区。

全部

查看集群信息

节点池支持自定义 containerd 配置

您可以在节点池中自定义节点的 containerd 参数配置,例如给指定镜像仓库同时配置多个 Mirror 仓库,或者指定跳过某个镜像仓库的安全证书的验证。

全部

自定义节点池containerd参数配置

节点池新增弹性强度提示

节点池扩容时,可能由于实例库存不足、ECS实例规格在指定可用区不支持等原因导致扩容失败,可通过弹性强度来评估节点池配置的可用性以及实例供应的健康度,并获取相应的配置建议。

全部

查看节点池弹性强度

支持启用批量任务编排能力

Argo Workflows是一个Kubernetes原生的工作流引擎,支持通过YAMLPython编排并行任务,简化容器化应用的自动化和管理工作,适用于CI/CD流水线、数据处理、机器学习等场景。可通过安装Argo Workflows组件启用批量任务编排能力,使用阿里云Argo CLI或控制台界面创建和管理工作流任务。

全部

启用批量任务编排能力

GPU故障检测

ACK提供的ack-node-problem-detector组件基于社区开源项目node-problem-detector进一步改造和增强了集群节点异常事件监控能力。该组件提供丰富的GPU相关的故障检测项以增强GPU场景的故障发现能力,当发现对应的故障时会根据故障类型产生相应的Kubernetes EventKubernetes Node Condition。

全部

GPU故障检测与自动隔离

Knative服务中基于Fluid加速Pod启动

Fluid是一个开源的、Kubernetes原生的分布式数据集编排和加速引擎,主要应用于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。本实践介绍如何在Knative中基于Fluid加速模型推理服务Pod的启动,以提升应用响应效率。

全部

基于Fluid加速Pod启动

分布式云容器平台 ACK One

基于实际剩余资源的多集群Spark作业调度与分发

本实践将介绍如何通过ACK One舰队和ACK Koordinator组件,根据各集群实际剩余资源(而非请求资源)来调度和分发多集群Spark作业,以最大化利用多集群中的闲置资源,并通过优先级控制和离线混合部署确保在线服务的正常运行。

全部

基于实际剩余资源的多集群Spark作业调度与分发

ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务

通过将本地数据中心的Kubernetes集群接入ACK One注册集群,企业可以无缝扩展算力资源,充分利用阿里云强大的ACS GPU算力,实现DeepSeek推理模型的高效部署。

全部

ACK One注册集群使用ACS GPU算力构建DeepSeek蒸馏模型推理服务

容器服务 Edge 版

支持新增Pod虚拟交换机

ENS边缘场景中,如果ACK Edge集群使用Terway Edge插件,当虚拟交换机的IP不足或者需要扩展Pod网段时,您可以通过新增Pod虚拟交换机来增加IP地址资源供集群使用。

全部

新增Pod虚拟交换机

部署Deepseek-R1模型

为解决DeepSeek推理服务对GPU规格需求越来越高的问题,可通过ACK Edge集群管理本地IDCGPU机器,并借助集群的虚拟节点快速接入云上ACS Serverless GPU算力。该方案可以使推理任务优先在IDC GPU上运行,当本地IDC GPU资源不足时,任务将自动调度至云上的ACS Serverless GPU,满足业务扩展需求的同时降低成本。

全部

部署DeepSeek蒸馏模型推理服务

GPU资源监控

ACK Edge集群可纳管数据中心和边缘侧的GPU节点,统一管理多地域、多环境的异构算力。可在ACK Edge集群中接入阿里云Prometheus监控,使数据中心和边缘计算的GPU节点拥有与云上一致的可观测能力。

全部

ACK Edge集群GPU资源监控最佳实践

云原生AI套件

基于ACK部署DeepSeek蒸馏模型推理服务

DeepSeek-R1-Distill-Qwen-7B模型为例,介绍如何在阿里云容器服务ACK中使用KServe部署生产可用的DeepSeek蒸馏模型推理服务。

全部

基于ACK部署DeepSeek蒸馏模型推理服务

基于ACK多机分布式部署DeepSeek满血版推理部署实战

本实践介绍基于ACKDeepSeek-R1-671B大模型分布式推理实战方案。该方案使用混合并行策略,结合阿里云Arena工具,实现在2台节点上的高效分布式部署,并介绍如何将部署的DeepSeek-R1无缝集成至Dify平台,快速构建支持长文本理解的企业级智能问答系统。

全部

基于ACK多机分布式部署DeepSeek满血版推理部署实战

202501

产品

功能名称

功能描述

发布地域

相关文档

容器服务 Kubernetes 版

节点池支持镜像按需加速能力

ACK基于DADI(Data Accelerator for Disaggregated Infrastructure)镜像加速技术支持容器镜像的按需加载,实现镜像数据免全量下载以及在线解压,以显著缩短应用启动时间。

全部

使用按需加载容器镜像加速容器启动

新增支持Alibaba Cloud Linux 3 容器优化版操作系统

Alibaba Cloud Linux 3 容器优化版(即Alibaba Cloud Linux 3.2104 LTS 64位容器优化版)是基于 Alibaba Cloud Linux 默认标准镜像针对容器场景进行优化的镜像版本。针对容器场景更高业务部署密度、更快启动速度、更高安全隔离诉求等特点,阿里云结合容器服务 Kubernetes 版中海量客户实战经验,推出自研云原生操作系统 Alibaba Cloud Linux 3 容器优化版镜像。

全部

支持 Kubernetes 1.32

ACK 现已新增支持 Kubernetes 1.32 版本,您可在创建集群时直接创建 1. 32 版本的集群,也可将低版本集群升级至 1.32 版本。

全部

Kubernetes 1.32

支持通过ElasticQuotaTree与任务队列提升资源利用率

为了让不同团队和任务共享集群中的计算资源,同时确保资源的合理分配和隔离,您可以基于ack-kube-queue、ElasticQuotaTreeack-scheduler实现资源的合理、灵活分配。

全部

通过ElasticQuotaTree与任务队列提升资源利用率

新增使用资源组对集群资源进行精细化控制的最佳实践

为了更加高效地管理容器服务 Kubernetes 版的资源,您可以使用资源组对资源进行分组管理。资源组使您能够按照部门、项目、环境等维度对资源进行分组,并结合访问控制(RAM),在单个阿里云账号内实现资源的隔离和精细化权限管理。

全部

使用资源组进行精细化资源控制

分布式云容器平台 ACK One

ACK One注册集群接入ACS算力

支持在ACK One注册集群中使用ACS提供的容器算力。

全部

通过虚拟节点将Pod调度到ACS上运行

支持使用原生Service域名跨集群服务访问

ACK One多集群Service支持通过MultiClusterService实现用原生Service域名跨集群服务访问。您无需修改业务代码、业务PodDNSConfig配置或CoreDNS配置,直接使用原生Service便可实现跨集群流量路由。

全部

使用原生Service域名跨集群服务访问

支持通过Go SDK访问多集群资源

若您希望在平台中集成ACK One舰队以访问各子集群资源,可以利用Go SDK进行操作。

全部

通过Go SDK访问多集群资源

容器服务 Edge 版

支持云端节点伸缩

当线下节点资源不足时,节点自动伸缩能力可以为ACK Edge集群自动扩容云上节点,进行调度容量的补充。

全部

云端ECS节点弹性

支持混合云LLM弹性推理服务部署

通过安装ack-kserve组件,结合ACK Edge集群的云上弹性功能,实现混合云LLM弹性推理服务部署,帮您灵活调度云上云下资源,降低LLM推理服务运营成本。

全部

支持共享GPU调度能力

通过共享GPU调度能力,您可以将多个Pod调度到同一张GPU卡上,以共享GPU的计算资源,从而提高GPU的利用率并节省成本。

  • ACK Edge集群的云端节点支持完整的共享GPU调度和显存隔离以及算力隔离能力。

  • ACK Edge集群的边缘节点池仅支持共享GPU调度,不支持显存隔离、算力隔离的能力。

全部

使用共享GPU调度能力

支持统一管理多地域的ECS资源

新增最佳实践介绍如何通过ACK Edge集群将分布在不同地域的计算资源纳入统一管理,实现云原生应用的全生命周期管理和高效资源调度。

全部

统一管理多地域的ECS资源

更多信息

有关ACK的历史功能发布记录,请参见历史功能发布记录(2025年之前)