智能计算灵骏简介

更新时间:
复制为 MD 格式

智能计算灵骏专为人工智能场景而设计,提供稳定高效、高扩展性的AI计算公共云服务。灵骏支持十万卡级的高性能网络扩展能力,单任务可支持万卡规模扩展性,产品提供运维管控、集群任务管理等功能,实现开箱即用。为大模型/AIGC、自动驾驶、搜索推荐、科学智能、金融量化等行业、领域提供大规模高密度的算力支撑,搭配全面覆盖的监控和故障自愈处置能力,为您的业务提供集高性能、高扩展性与高稳定性于一体的创新底座,在AI时代赢得先发优势。

核心优势

  • 训练推理融合的超大规模集群

    专为当下与未来AI大模型设计,支持十万卡级大规模集群快速部署与管理,兼容主流深度学习框架。灵骏采用高性能网络架构(HPN, High Performance Network)解决扩展性难题,单层网络可以实现千卡级扩展,两层网络可以实现万卡级扩展,具备高可扩展性与强稳定性,为AGI时代的大模型研发提供强大算力支撑。

  • 稳定可靠

    基于任务并行策略,通过硬件架构与平台层软件对稳定性进行云产品联动自愈设计与系统性的优化,提供精细化的故障事件发现能力,支持对节点、GPU卡、调度服务等各层面健康状态实时监控与异常处理,降低故障发生概率和故障影响面,提升任务的鲁棒性。整体具备分钟级的故障亲和恢复能力,故障发现率超98%,有效支撑万亿参数MoE大模型训练获取超过 99%训练有效时长。

  • 多种形态灵活的存储搭配

    通过 RDMA 高吞吐、低延迟的数据访问通路,利用分布式并行文件系统CPFS,确保万卡集群在训练过程中能持续高效地获取训练样本。利用高性能低时延的缓存能力,满足数据预加载、Checkpoint存储等场景的存储性能要求,同时可以结合EBS、OSS等产品,满足块、对象等多规格、多类型的数据存储需求。可通过快速规格切换实现不同的存储访问模式,无需退租。存储流量和计算流量分离,支持异步checkpoint集群级通信优化,避免存储流量干扰计算流量造成并行通信抖动。

  • 算力基石

    提供裸金属实例(集群)与容器实例等算力形态,实现AI计算资源的标准化与规模化。其中裸金属实例规格,具备等效的通信互联能力,搭配最新一代CPU,可提供支持GPU Direct Storage的充沛本地盘资源;支持标准化的 K8s 接口和容器网络方案,同时可结合安全容器对计算存储网络进行资源虚拟化,为上层平台应用提供池化的智能算力,部分场景资源利用率可提升3倍。

产品功能

以万卡并行算力支撑AI应用持续创新

  • 应用场景

    智能计算灵骏主要用于支持基础模型大规模训练、MoE多模态模型训练及微调、上至万亿参数规模模型并行推理等面向未来的AI并行计算场景应用,以每秒数百亿亿次浮点计算性能(EFLOPS),软硬一体设计使得在相同空间下提供更强性能与更高稳定性,支持基础模型、自动驾驶、科学智能、金融科技、搜索推荐等行业持续创新。

  • 超大规模无收敛架构

    AI应用性能和任务稳定性为核心设计,以物理带宽和拓扑为基础实现网络拥塞控制,结合通信库实现流量负载优化,端到端时延低至2us。 基于端网协同的思想,对网络集群进行架构设计、网络拓扑、路径选择、流量控制等系统性优化,实现超大规模线性扩展,可实现 96%以上的万卡规模显性扩展度以及网络稳态运行,同时支持集群十万卡级别超大规模Scale-up&Scale-out融合扩展。同时,对集群内数据交换和互联资源统筹,通过系统性的调优逼近系统的吞吐性能极限,提升系统的鲁棒性。

  • 开服地域

    智能计算灵骏支持的地域有:华东1(杭州)、华北2(北京)、华东2(上海)、华南1(深圳)、华南3(广州)、西北2(中卫)、华北5(呼和浩特)、华北3(张家口)、华北6(乌兰察布)、华南2(河源)、中国香港、新加坡、日本(东京)、美国(亚特兰大)、德国(法兰克福)、马来西亚(柔佛州)、马来西亚(吉隆坡)、阿联酋(迪拜)、泰国(曼谷)。当前智能计算灵骏可提供包年包月(固定周期)和按量的计费模式,您需要向阿里云销售团队申请资源使用。

高性能的智能计算实例

  • 多元GPU卡型的灵骏加速计算实例支持

    智能计算灵骏作为面向加速计算场景的裸金属集群服务,基于灵骏的异构计算实例,拥有GPU(Graphic Processing Unit)及高速片间互联,高速网络互联等特性,整体架构基于 Scale-up domain 维度进行设计,即灵骏加速计算实例内的所有 GPU 全部享受高速片间互联,同时每张 GPU 卡都支持在集群维度内 RDMA 等效互联通信,此外,实例支持 balanced 部署 GPU, 本地 NVMe,以及高性能 RDMA 网卡,实现 numa 亲和等特性。

  • 标准化K8s、Serverless的容器实例支持与AI场景优化

    集群部署就绪,您可以按需通过ACS Serverless化的容器实例,K8s集群服务来使用容器化的GPU算力,此外,K8s已经完成对于CPU、GPU等异构资源的抽象与编排,并且针对AI场景,产品也提供了包括算子优化、PD分离、EP并行部署与负载均衡、Cache-aware的调度等能力上的增强,同时也支持了按需挂载存储与使用网络能力。

  • 高性能的数据存储访问能力

    为了满足训练场景高速Checkpoint存储和智算业务的极致数据加载需求,智能计算灵骏可支持基于RDMA的高性能分布式文件存储CPFS的灵活挂载,同时支持 VPC/EBS 端侧可卸载能力,实现标准的云产品互访互通。

自动化的集群管理

  • 多维联动的集群管理能力,自动化的集群管理能力

    智能计算灵骏产品支持灵骏裸金属节点的分配与资源池化的调度能力,集群可支持使用阿里云原生 K8s 产品如ACK作为容器集群管理服务,使用CPFS作为高性能并行文件存储,支持使用EBS作为系统盘/数据盘,支持使用PAI作为人工智能平台服务,支持对接ARMS Prometheus监控能力,整个集群的部署过程一键完成,高性能智算集群分钟级就绪。

  • 故障自愈系统保障并行计算任务稳定性

    灵骏故障自愈系统是基于丰富的监控体系构建的对客保障能力和自动化自愈处理,覆盖灵骏的 OS/GPU/高性能网络/DPU 等多维故障。并实现故障精细化消费策略与自动化故障冷迁移能力,最大限度减少用户的不可用时长。同时灵骏构建了用于检测智算集群整体健康情况的自动化巡检平台,实现了覆盖GPU异构算力及节点间集合通信的多维度集群健康状态周期检测能力,可对机器进行单机检测/两机检测/多节点集群等多种模式的持续检测。真正做到事前预防(降低发生概率),事后容错(提升问题处理效率,降低训练算力损失),逐步推进故障左移策略。

全面的集群监控能力

  • 可观测能力与运维能力

    灵骏在管控台提供了监控数据大盘展示,包括GPU异构计算资源、秒级的 RDMA 高性能网络监控告警、故障定位能力等,同时也支持操作日志、运维任务展示,此外还支持了资源与环境的信息展示,方便用户了解整个集群的资源使用与运行情况。基于监控数据基础,灵骏还支持白屏化的基础运维能力,例如系统重启、集群与节点运维诊断、web终端能力。

购买与计费

  • 产品购买:请先向销售经理提交资源需求,然后再通过灵骏控制台购买节点资源。详细流程请参见购买灵骏节点

  • 产品计费:智能计算灵骏包含包年包月(固定周期)和按量计费模式。计费详情请参见计费说明

使用方法

在购买灵骏计算节点后需要以集群方式使用资源,灵骏集群可分为如下两种:

集群种类

使用方法

适用场景

基础灵骏集群

在控制台集群管理页配置分组、网络、存储、软件等信息创建集群,后续通过远程登录使用节点资源。

适用于灵骏裸金属资源场景,您可在构建集群后自行安装配置开发环境。

PAI灵骏集群(ACK灵骏托管版集群)

说明

新用户已无法创建。

创建集群后在人工智能平台PAI中以资源配额形式使用灵骏资源。

适用于需要一站式AI开发平台的用户,可以使用云端IDE PAI-DSW开发模型代码,使用PAI-DLC分布式训练模型,使用PAI-EAS将模型部署为在线服务,其具有灵活易用、弹性伸缩、版本管理等特点。

创建集群后在容器服务Kubernetes中使用和管理灵骏集群。

适用于了解容器技术,使用控制台或命令行工具kubectl等方式,进行容器化部署模型训练和推理任务的用户,其具有强大的容器管理能力,包括自动化的应用部署、扩展和管理功能。