GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的具体应用场景。
GPU云服务器应用场景
直播实时视频转码
阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下:
GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过流量洪峰。
GPU云服务器参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例,支持淘宝渲染方提升几十倍的渲染性能,第一次实现秒级实时渲染,完成总计超过5000张大型家居渲染图。
AI训练
GPU计算型实例规格族gn6v和gn6e具有优异的通用GPU计算加速能力,适合为深度学习提供加速引擎。具体说明如下:
gn6v实例配备具有16 GB显存的NVIDIA V100 GPU计算卡,gn6e实例配备具有32 GB显存的NVIDIA V100 GPU计算卡,单节点可提供高达1000 TFlops的混合精度计算能力。
实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用,可以简化部署和运维的复杂度,提供资源调度服务。
AI推理
GPU计算型实例规格族gn6i具有优异的AI推理能力,满足了深度学习(尤其是推理)场景下的算力需求。具体说明如下:
gn6i实例基于配备NVIDIA Tesla T4 GPU计算卡,单精度浮点计算能力最高可达8.1 TFlops,int8定点运算处理能力最高可达130 TOPS,支持混合精度。
单卡功耗仅75 W,具有极高的性能功耗比。
实例与弹性计算生态的完美结合,为在线和离线场景提供了通用的解决方案。
实例搭配容器服务使用,可以简化部署和运维的复杂度,并提供资源调度服务。
镜像市场提供预装NVIDIA GPU驱动和深度学习框架的镜像,简化您的部署操作。
云端图形工作站
GPU计算型实例规格族gn6i采用基于Turing架构的NVIDIA Tesla T4 GPU加速器,具有极佳的图形计算能力。gn6i实例可以结合云桌面产品提供云端图形工作站服务,应用于影视动画设计、工业设计、医疗成像、高性能计算的结果呈现等场景。
神行工具包(DeepGPU)应用场景
神行工具包中的组件主要包括神龙AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式训练通信优化库AIACC-ACSpeed、AI训练计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU以及GPU容器共享技术cGPU,该工具主要适用于AI训练和AI推理场景。具体说明如下:
AI训练
AIACC适用于所有AI训练场景和AI推理场景。AIACC-ACSpeed和AIACC-AGSpeed适用于所有基于PyTorch框架的AI训练场景,并针对PyTorch框架可以实现定制化的深度优化功能。
AIACC进行AI训练的典型业务场景如下所示:
场景
适用模型
常用存储
图像分类、图像识别
MXNet框架的模型
并行文件存储系统CPFS
CTR预估
TensorFlow框架的Wide&Deep模型
文件系统HDFS
NLP自然语言处理
TensorFlow框架的Transformer、Bert模型
并行文件存储系统CPFS
AIACC-ACSpeed进行AI训练的典型业务场景如下所示:
场景
适用模型
常用存储
图像分类、图像识别
Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型
并行文件存储系统CPFS
CTR预估
Wide&Deep模型
文件系统HDFS
NLP自然语言处理
Transformer、Bert模型等
并行文件存储系统CPFS
大模型
Megatron-LM、DeepSpeed等混合并行的LLM大模型场景的Pretrain和Finetune
并行文件存储系统CPFS
AGSpeed进行AI训练的典型业务场景如下所示:
场景
适用模型
图像分类
ResNet、MobileNet等模型
图像分割
Unet3D等模型
NLP自然语言处理
BERT、GPT2、T5等模型
AI推理
AIACC能够适用于所有AI推理场景。该工具进行AI推理的典型业务场景如下所示:
场景
适用模型
配置信息
性能优化措施
视频超分推理
超分模型
T4 GPU
进行了如下性能优化,将性能提升至原来的2.7倍。
视频解码移植到GPU。
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
图像合成在线推理
GAN模型
T4 GPU
进行了如下性能优化,将性能提升至原来的4倍。
前后处理移植到GPU。
自动凑满一次运算所需的数据集大小。
卷积的深度优化。
CTR预估推理
Wide&Deep模型
M40 GPU
进行了如下性能优化,将性能提升至原来的6.1倍。
流水线优化。
模型拆分。
子模型分别优化。
自然语言处理推理
Bert模型
T4 GPU
进行了如下性能优化,将性能提升至原来的3.3倍。
前后处理流水线优化。
自动凑满一次运算所需的数据集大小。
Kernel深入优化。