PAI灵骏智算服务概述

PAI灵骏是一种大规模高密度计算服务,全称“PAI灵骏智算服务”,提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。您只需为AI训练所消耗的资源付费,无需建设、调优和运维复杂的计算节点、存储及RDMA网络,即可使用高扩展性、高性能、高性价比的智能计算基础设施环境。

产品架构

image
  • PAI灵骏是软硬件一体化设计的算力集群服务,硬件涵盖了服务器、网络、存储以及集群的整体交付管理等,软件包括算力资源管控运维、AI加速套件、云原生任务管理,以及完善的AI开发作业平台,支持Pytorch、TensorFlow等常见AI框架。

  • PAI灵骏的底层硬件核心组件由磐久服务器和高性能RDMA网络两部分组成:

    • 服务器采用阿里云自研的磐久服务器,在核心配置上进行多项优化,充分保证硬件的性能释放。

    • 网络支持常见的Fat-Tree网络拓扑,支持TCP/IPRDMA等多种通信协议。其中,PAI灵骏25G网络和100G网络独立组网;25G网络用于服务器带内管理,100G网络的多个网卡用于AI训练业务的高效通信。为提升PAI灵骏网络可用性,PAI灵骏支持双上联组网,每个网卡的两个端口分别接到两个交换机上,在连接出现故障时可自动切换,保证网络可用性。

  • 软件架构自底向上包括资源管理、计算加速库、机器学习和深度学习框架、开发环境以及任务管理等多个部分。

    • 资源管理部分,PAI灵骏通过容器技术(Docker)进行资源的划分和调度,并兼容Kubernetes(K8s)等编排工具。

    • 系统的运维和监控,采用阿里巴巴的天基系统对集群的底层资源和状态进行实时监控。

    • 支持加速库,主要对PAI灵骏集群的通信进行了深度的定制优化。

    • 计算系统支持任务的界面化提交和任务日志查看,支持主流的AI计算框架,例如:PyTorch、TensorFlow等。

为什么选择PAI灵骏

选择PAI灵骏,您可以轻松构建具有以下优势的智能集群:

  • 算力即服务。提供高性能、高弹性异构算力服务,支持万张GPU规模的资源弹性,单集群网络容量高达4Pbps,时延低至2微秒。

  • 高资源效率。资源利用率提升3倍,并行计算效率提升90%以上。

  • 融合算力池。支持AI+HPC场景算力的统一分配和融合调度,无缝连接。

  • 算力管理监控。为异构算力深度定制IT运维管理平台,实现异构算力到池化资源到使用效率的全流程监控管理。

产品优势

  • 加速AI创新。全链路性能提速,计算密集型项目迭代效率可提升2倍以上。

  • 最大化ROI。高效的池化异构算力调度技术,确保每一份算力投入都能得到充分利用,资源利用率可提升3倍。

  • 无惧规模挑战。轻松应对大模型和大规模工程仿真的算力需求,让创新不受算力限制。

  • 可视又可控。简单地管理异构算力的分配,并持续地监控和优化。

应用场景

PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。

  • 大规模分布式训练。

    • 超大规模GPU算力系统。

      全对等网络架构,全资源池化,可以搭配PAI(机器学习平台)使用,支持多种训练框架(Pytorch、TensorFlow、Caffe、Keras、XGBoost、Mxnet等),可以满足多种规模的AI训练和推理业务。

    • AI基础设施。

      • 平滑扩容。满足不同规模GPU算力需求,平滑扩容,性能线性拓展。

      • 智能数据加速。针对AI训练场景提供数据智能加速,主动预热训练所需数据,提升训练效率。

      • 更高资源利用率。支持异构资源细粒度管控,提升资源周转效率。

  • 自动驾驶。

    • 丰富的部署和调度策略。

      多种GPU资源调度策略,保证训练任务高效执行。文件存储CPFS(Cloud Paralleled File System)搭配RDMA网络架构,保证训练数据供给和计算IO;并可使用OSS分级存储降低归档数据存储成本。

    • 同时支持训练和仿真场景。

      融合算力智能供应,同时支持训练仿真两种场景,从协同模式上提升迭代效率,降低数据迁移成本。

  • 科学智能。

    • 拓展提升创新上限。

      基于数据中心超大规模RDMA“高速网”和通信流控技术,实现端到端微秒级通信时延,超大规模线性拓展可打造万卡级并行算力。

    • 融合生态,拓展创新边界。

      支持HPCAI任务融合调度,为科研和AI提供统一协同的底座支撑,促进技术生态融合。

    • 云上科研,普惠算力。

      支持云原生和容器化的AIHPC应用生态,资源深度共享,普惠的智能算力触手可得。

功能特性

  • 高速RDMA网络架构。阿里巴巴2016年开始投入专项研究RDMA(Remote Direct Memory Access),

    目前已建成大规模数据中心内的“高速网”,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。

  • 高性能集合通信库ACCL。PAI灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效(计算)性能可达95%以上,可满足80%以上的业务场景需求。

  • 高性能数据主动加载加速软件KSpeed。PAI灵骏基于高性能网络RDMA和高性能通信ACCL,研发高性能数据主动加载加速软件KSpeed,进行智能数据IO优化。计算存储分离架构广泛存在于AI、HPC、大数据业务场景中,但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed,实现数据IO数量级性能提升。

  • GPU容器虚拟化方案eGPU。针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题,PAI灵骏支持GPU虚拟化技术eGPU,可有效提升AI集群的GPU利用率,具体如下:

    • 支持显存、算力双维度自由切分。

    • 支持多个规格。

    • 支持动态创建、销毁。

    • 支持热升级。

    • 支持用户态技术,保证更高可靠性。

PAI灵骏网络使用限制

限制项

限制

提升配额方式

单个账号在同一地域支持创建的灵骏网段数量

8

具体操作,请参见管理配额

单个灵骏网段支持创建的灵骏子网数量

16

具体操作,请参见管理配额

单个灵骏子网内的灵骏节点数量

1000

单个灵骏网段内的灵骏节点数量

1000

灵骏网段和灵骏子网支持配置的网段

可以使用除100.64.0.0/10224.0.0.0/4127.0.0.0/8169.254.0.0/16及其子网外的自定义地址段作为灵骏网段。

单个账号在同一地域支持创建的灵骏连接实例数量

16

单个灵骏连接实例从公共云学习的IPv4路由条目数

50

单个灵骏连接实例从公共云学习的IPv6路由条目数

25

单个账号在同一地域支持创建的灵骏HUB实例数量

4

具体操作,请参见管理配额

单个灵骏网段支持连接的灵骏HUB数量

1

具体操作,请参见管理配额

单个灵骏连接支持连通的灵骏HUB实例数量

1

具体操作,请参见管理配额

单个灵骏HUB实例支持连通的灵骏连接数量

32

具体操作,请参见管理配额

单个灵骏HUB实例支持的同一地域所有灵骏网段中的灵骏节点数量

2000

单个灵骏HUB支持配置的路由策略条目数量

100

单个灵骏网卡支持的辅助私网IP数量

3

具体操作,请参见管理配额

产品规格与开通

  • 开通:PAI灵骏智算服务目前处于定向公测阶段,阿里云业务人员会主动为需要购买的用户提供商品购买链接,并提供控制台管理员账号。开通PAI灵骏的流程,请参见开通灵骏

  • 计费:PAI灵骏智算服务包含固费分期和包年包月模式。详细计费说明请参见产品计费