灵骏资源应用场景_人工智能平台 PAI(PAI)-阿里云帮助中心

智算服务 PAI-灵骏是面向大规模深度学习及融合智算的PaaS产品，基于软硬件一体优化技术，构建高性能异构算力底座，提供AI工程化全流程能力，具备高性能、高效率、高利用率等核心优势，满足高性能计算等领域需求，在大模型训练、自动驾驶、基础科研、金融等领域广泛应用。

大规模分布式训练

支持Serverless架构的AI研发场景，能够处理包括GPT-3（175B参数）、M6（万亿参数）、PLUG、STAR等大规模模型的训练任务，提供深度优化的智能计算服务，适用于图形图像处理（如AIGC图像生成）、自然语言处理（如AIGC文本生成）、语音和视频等应用领域，确保高效且可预期的训练服务，从而加速模型迭代效率。

“万卡级”线性扩展 支持不同规模的AI训练算力需求，实现点对点通信延迟低至2微秒，确保算力资源的平滑扩容和性能的线性扩展。
超高吞吐和IOPS 针对AI训练场景，将数据预先加载至持久化存储，以满足训练过程中数据加载和写入的高带宽需求，从而提升训练效率。
高资源利用率 通过对GPU资源进行细粒度的切分和调度，支持协同开发。该技术已通过双十一大规模应用验证，资源利用率提升可达3倍。

自动驾驶

提供一站式的训练与仿真平台，支持全场景应用，并通过多种GPU资源调度策略、RDMA网络和CPFS存储系统，确保高效的数据处理和计算能力。与此同时，平台注重数据安全与合规，提供了丰富的部署和调度策略，提升迭代效率并降低数据迁移成本。

高效的训练与仿真支持
- 提供统一的平台支持训练和仿真需求，简化开发流程，并通过多种GPU资源调度策略，保证训练任务的高效执行。
- 文件存储CPFS与RDMA网络架构相结合，确保训练数据的高带宽供给和计算IO性能，同时通过OSS分级存储降低归档数据的存储成本。
全面的安全与合规保障
平台支持多种自动驾驶应用场景，符合安全与合规要求，包括数据安全中心、云防火墙、堡垒机、加密服务、SSL加密、访问控制和数据库审计，确保数据和应用的安全性。
高资源利用率与灵活扩展
对GPU资源进行细粒度切分和调度，支持协同开发，资源利用率可提升至3倍。云上资源弹性扩展可选，按需打通，确保灵活的资源管理，提升迭代效率并降低数据迁移成本。

科研智算

通过超大规模融合算力，实现对深度学习和高性能计算任务的统一部署与调度，为基础科研、新药研发、工程仿真等领域提供统一的标准化计算服务。此举不仅推动了范式创新和效率提升，还促进了AI与高性能计算（HPC）开发生态的深度融合。

促进科研新范式
通过支持云原生和容器化的AI与HPC应用生态，为基础科研、新药研发、新材料研究等领域提供统一的计算服务，支持跨地区、跨团队的协同作业，提高资源利用率，并推动技术生态的融合，增强协同效应。
打造科研大平台
利用RDMA技术和阿里云高性能通信库，构建低延迟、高带宽的网络环境，针对AI与HPC应用进行通信优化，实现了点对点通信延迟低至2微秒，最大支持数万节点的并行计算，为大规模科学计算提供高效的智能计算服务。