PPU简介

更新时间:
复制为 MD 格式

PPU一款为AI应用加速的芯片,具有高易用性,适用于各类大模型和传统模型的训练及推理场景。它支持主流AI框架和深度学习模型,提供编译器和多种开源加速库,同时配备完整的工具链,帮助您快速、低成本地迁移应用。PPU自研的软件栈可广泛应用于AI训练和推理,通过PPU SDK能够最大化产品算力,显著提升计算效率。

核心竞争力

全自研

  • 端到端全链路自研

  • 自研片间互联等核心模块

  • 全栈软件自研,软硬结合

高性价比

  • 单卡规格和实测性能接近标杆竞对

  • 整机性价比远高于标杆竞对

  • 支持大规模的集群能力

高易用性

  • 支持CUDA生态,可实现快速、低成本的应用迁移

  • 提供源代码级别的编译兼容能力,业务迁移无需修改代码

  • 无应用场景限制,可扩展性好

应用场景

多模态大模型训练推理

完全兼容Qwen、LLaMa等常见开源大模型,Megatron、DeepSpeed、vllm等常见训练、推理框架无缝迁移。

自动驾驶模型训练

已验证兼容50+自动驾驶常见模型,在感知模型、预测模型、端到端模型等多种模型架构下均有50%以上的单机性能优势。

产品规格

产品

真武810E

最大热设计功耗 TDP(W)

400

外形规格

OAM

总线接口

PCIe 5.0x16

存储形态

HBM2e

存储容量 (GB)

96

存储带宽(GB/s)

2765

片间互联形态

ICN

片间互联带宽(GB/s)

700

软件栈

image

PPU软件生态系统设计由应用层、CUDA转换层和PPU SDK层组成的软件栈。用户既可以对新开发的应用程序直接调用PPU SDK,也可以通过CUDA转换层使现有的应用程序间接调用PPU SDK。

  • 提供面向DL领域的类CUDA API和各类加速库,重点支持CudaRT、CuDNN、CuBlas、NCCL、CuSolver、NVML、NVTX、FFMPEG、Nvcuvid、NvjpegdLIbs,用户可以对现有CUDA应用替换,或使用转换层进行适配。

  • 提供完整的工具链,快速实现业务部署和调优,如:设备监控查询工具PPU-SMI、应用程序性能分析套件Asight System、应用程序kernel分析工具Asight Compute、程序调试工具GDB For Kernel Debugger。

使用途径

途径

使用方式

适合场景

在容器计算服务ACS中使用PPU

ACS中创建灵骏资源集群并选择PPU专属镜像,然后使用ACS控制台或命令行工具kubectl等方式,提交模型训练或模型部署任务。

适用于了解容器技术,使用控制台或命令行工具kubectl等方式,进行容器化部署模型训练和推理任务的用户,其具有强大的容器管理能力,包括自动化的应用部署、扩展和管理功能

在人工智能平台PAI中使用PPU

PAI中创建灵骏专有资源组并选择PPU专属镜像,然后使用PAI-DSW、PAI-DLC、PAI-EAS开发、训练、部署模型。

适用于需要一站式AI开发平台的用户,可以使用云端IDE PAI-DSW开发模型代码,使用PAI-DLC分布式训练模型,使用PAI-EAS将模型部署为在线服务,其具有灵活易用、弹性伸缩、版本管理等特点。