灵骏满足AI、HPC等计算密集场景需要的高性能算力,可实现高性能、大规模的池化算力,满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。
高速RDMA网络架构
阿里巴巴2016年开始投入专项研究RDMA(Remote Direct Memory Access),以改造RDMA,提高传输性能。目前已建成大规模数据中心内的“高速网”,时延降低90%,支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。
同时,通过大规模RDMA网络部署实践,阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法,并通过智能网卡实现了协议硬件卸载,降低了端到端网络延时,提升了网络IO吞吐能力,并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。
高性能集合通信库ACCL
灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。
在AI集群层面,通讯的碰撞是计算延迟的主要来源。除了架设集群通信的“高速公路”(即RDMA高速网)外,还需要进行合理的通讯调度,避免“堵车”。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效(计算)性能可达95%以上,可满足80%以上的业务场景需求。
高性能数据主动加载加速软件KSpeed
灵骏基于高性能网络RDMA和高性能通信ACCL,研发高性能数据主动加载加速软件KSpeed,进行智能数据IO优化。
计算存储分离架构广泛存在于AI、HPC、大数据业务场景中,但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed,实现数据IO数量级性能提升。
例如:在部分场景中,数据加载耗时可占据训练整体时长60%以上,KSpeed能够实现内存级数据主动预加载,数据加载时长缩减到10%以内,相当于把单位时间内的计算性能提升了1倍。
GPU容器虚拟化方案eGPU
针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题,灵骏支持GPU虚拟化技术eGPU,可有效提升AI集群的GPU利用率,具体如下:
支持显存、算力双维度自由切分。
支持多个规格。
支持动态创建、销毁。
支持热升级。
支持用户态技术,保证更高可靠性。