智算服务 PAI-灵骏是面向大规模深度学习及融合智算的PaaS产品,基于软硬件一体优化技术,构建高性能异构算力底座,提供AI工程化全流程能力,具备高性能、高效率、高利用率等核心优势,满足高性能计算等领域需求,在大模型训练、自动驾驶、基础科研、金融等领域广泛应用。
大规模分布式训练
支持Serverless架构的AI研发场景,能够处理包括GPT-3(175B参数)、M6(万亿参数)、PLUG、STAR等大规模模型的训练任务,提供深度优化的智能计算服务,适用于图形图像处理(如AIGC图像生成)、自然语言处理(如AIGC文本生成)、语音和视频等应用领域,确保高效且可预期的训练服务,从而加速模型迭代效率。
“万卡级”线性扩展 支持不同规模的AI训练算力需求,实现点对点通信延迟低至2微秒,确保算力资源的平滑扩容和性能的线性扩展。
超高吞吐和IOPS 针对AI训练场景,将数据预先加载至持久化存储,以满足训练过程中数据加载和写入的高带宽需求,从而提升训练效率。
高资源利用率 通过对GPU资源进行细粒度的切分和调度,支持协同开发。该技术已通过双十一大规模应用验证,资源利用率提升可达3倍。
自动驾驶
提供一站式的训练与仿真平台,支持全场景应用,并通过多种GPU资源调度策略、RDMA网络和CPFS存储系统,确保高效的数据处理和计算能力。与此同时,平台注重数据安全与合规,提供了丰富的部署和调度策略,提升迭代效率并降低数据迁移成本。
高效的训练与仿真支持
提供统一的平台支持训练和仿真需求,简化开发流程,并通过多种GPU资源调度策略,保证训练任务的高效执行。
文件存储CPFS与RDMA网络架构相结合,确保训练数据的高带宽供给和计算IO性能,同时通过OSS分级存储降低归档数据的存储成本。
全面的安全与合规保障
平台支持多种自动驾驶应用场景,符合安全与合规要求,包括数据安全中心、云防火墙、堡垒机、加密服务、SSL加密、访问控制和数据库审计,确保数据和应用的安全性。
高资源利用率与灵活扩展
对GPU资源进行细粒度切分和调度,支持协同开发,资源利用率可提升至3倍。云上资源弹性扩展可选,按需打通,确保灵活的资源管理,提升迭代效率并降低数据迁移成本。
科研智算
通过超大规模融合算力,实现对深度学习和高性能计算任务的统一部署与调度,为基础科研、新药研发、工程仿真等领域提供统一的标准化计算服务。此举不仅推动了范式创新和效率提升,还促进了AI与高性能计算(HPC)开发生态的深度融合。
促进科研新范式
通过支持云原生和容器化的AI与HPC应用生态,为基础科研、新药研发、新材料研究等领域提供统一的计算服务,支持跨地区、跨团队的协同作业,提高资源利用率,并推动技术生态的融合,增强协同效应。
打造科研大平台
利用RDMA技术和阿里云高性能通信库,构建低延迟、高带宽的网络环境,针对AI与HPC应用进行通信优化,实现了点对点通信延迟低至2微秒,最大支持数万节点的并行计算,为大规模科学计算提供高效的智能计算服务。