应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的具体应用场景。

GPU云服务器应用场景

  • 直播实时视频转码

    阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:

    • GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。

    • GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。

  • AI训练

    GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:

    • gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。

    • 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。

    • 实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。

  • AI推理

    GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:

    • gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。

    • 单卡功耗仅75 W,具有极高的性能功耗比。

    • 实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。

    • 实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。

    • 镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。

  • 云端图形工作站

    GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。

神行工具包(DeepGPU)应用场景

神行工具包中的组件主要包括神龙AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,该工具主要适用于AI训练和AI推理场景。具体说明如下:

  • AI训练

    AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景,并针对PyTorch框架可以实现定制化的深度优化功能。

    • AIACC进行AI训练的典型业务场景如下所示:

      场景

      适用模型

      常用存储

      图像分类、图像识别

      MXNet框架的模型

      并行文件存储系统CPFS

      CTR预估

      TensorFlow框架的Wide&Deep模型

      文件系统HDFS

      NLP自然语言处理

      TensorFlow框架的Transformer、Bert模型

      并行文件存储系统CPFS

    • AIACC-ACSpeed进行AI训练的典型业务场景如下所示:

      场景

      适用模型

      常用存储

      图像分类、图像识别

      Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型

      并行文件存储系统CPFS

      CTR预估

      Wide&Deep模型

      文件系统HDFS

      NLP自然语言处理

      Transformer、Bert模型等

      并行文件存储系统CPFS

      大模型

      Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune

      并行文件存储系统CPFS

    • AGSpeed进行AI训练的典型业务场景如下所示:

      场景

      适用模型

      图像分类

      ResNet、MobileNet等模型

      图像分割

      Unet3D等模型

      NLP自然语言处理

      BERT、GPT2、T5等模型

  • AI推理

    AIACC能够适用于所有AI推理场景。该工具进行AI推理的典型业务场景如下所示:

    场景

    适用模型

    配置信息

    性能优化措施

    视频超分推理

    超分模型

    T4 GPU

    进行了如下性能优化,将性能提升至原来的2.7倍。

    • 视频解码移植到GPU。

    • 前后处理移植到GPU。

    • 自动凑满一次运算所需的数据集大小。

    • 卷积的深度优化。

    图像合成在线推理

    GAN模型

    T4 GPU

    进行了如下性能优化,将性能提升至原来的4倍。

    • 前后处理移植到GPU。

    • 自动凑满一次运算所需的数据集大小。

    • 卷积的深度优化。

    CTR预估推理

    Wide&Deep模型

    M40 GPU

    进行了如下性能优化,将性能提升至原来的6.1倍。

    • 流水线优化。

    • 模型拆分。

    • 子模型分别优化。

    自然语言处理推理

    Bert模型

    T4 GPU

    进行了如下性能优化,将性能提升至原来的3.3倍。

    • 前后处理流水线优化。

    • 自动凑满一次运算所需的数据集大小。

    • Kernel深入优化。