文档

功能特性

更新时间:

灵骏满足AI、HPC等计算密集场景需要的高性能算力,可实现高性能、大规模的池化算力,满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。

高速RDMA网络架构

阿里巴巴2016年开始投入专项研究RDMA(Remote Direct Memory Access),以改造RDMA,提高传输性能。目前已建成大规模数据中心内的“高速网”,时延降低90%,支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。

同时,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。

高性能集合通信库ACCL

灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。

在AI集群层面,通讯的碰撞是计算延迟的主要来源。除了架设集群通信的“高速公路”(即RDMA高速网)外,还需要进行合理的通讯调度,避免“堵车”。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效(计算)性能可达95%以上,可满足80%以上的业务场景需求。

高性能数据主动加载加速软件KSpeed

灵骏基于高性能网络RDMA和高性能通信ACCL,研发高性能数据主动加载加速软件KSpeed,进行智能数据IO优化。

计算存储分离架构广泛存在于AI、HPC、大数据业务场景中,但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed,实现数据IO数量级性能提升。

例如:在部分场景中,数据加载耗时可占据训练整体时长60%以上,KSpeed能够实现内存级数据主动预加载,数据加载时长缩减到10%以内,相当于把单位时间内的计算性能提升了1倍。

GPU容器虚拟化方案eGPU

针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题,灵骏支持GPU虚拟化技术eGPU,可有效提升AI集群的GPU利用率,具体如下:

  • 支持显存、算力双维度自由切分。

  • 支持多个规格。

  • 支持动态创建、销毁。

  • 支持热升级。

  • 支持用户态技术,保证更高可靠性。