灵骏智算资源核心技术与功能特性-人工智能平台 PAI-阿里云

灵骏满足AI、HPC等计算密集场景需要的高性能算力，可实现高性能、大规模的池化算力，满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。

高速RDMA网络架构

阿里巴巴2016年开始投入专项研究RDMA（Remote Direct Memory Access），以改造RDMA，提高传输性能。目前已建成大规模数据中心内的“高速网”，时延降低90%，支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。

同时，通过大规模RDMA网络部署实践，阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过智能网卡实现了协议硬件卸载，降低了端到端网络延时，提升了网络IO吞吐能力，并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。

高性能集合通信库ACCL

灵骏支持高性能集合通信库ACCL（Alibaba Collective Communication Library），结合硬件（例如：网络交换机），对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。

在AI集群层面，通讯的碰撞是计算延迟的主要来源。除了架设集群通信的“高速公路”（即RDMA高速网）外，还需要进行合理的通讯调度，避免“堵车”。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法，彻底消除网络拥塞，提升网络通信效率，提高分布式训练系统的扩展性。在万卡规模下，可达80%以上的线性集群能力。在百卡规模下，有效（计算）性能可达95%以上，可满足80%以上的业务场景需求。

高性能数据主动加载加速软件KSpeed

灵骏基于高性能网络RDMA和高性能通信ACCL，研发高性能数据主动加载加速软件KSpeed，进行智能数据IO优化。

计算存储分离架构广泛存在于AI、HPC、大数据业务场景中，但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed，实现数据IO数量级性能提升。

例如：在部分场景中，数据加载耗时可占据训练整体时长60%以上，KSpeed能够实现内存级数据主动预加载，数据加载时长缩减到10%以内，相当于把单位时间内的计算性能提升了1倍。

GPU容器虚拟化方案eGPU

针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下：

支持显存、算力双维度自由切分。
支持多个规格。
支持动态创建、销毁。
支持热升级。
支持用户态技术，保证更高可靠性。