阿里云异构计算产品为您提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。
什么是异构计算
异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器以及弹性加速计算实例EAIS等。异构计算能够让最适合的专用硬件去服务最适合的业务场景,在特定场景下,异构计算产品比普通的云服务器高出一个甚至更多数量级的性价比和效率。异构计算的显著优势在于实现了让性能、成本和功耗三者均衡的技术,通过让最合适的专用硬件去做最适合的事来调节功耗,从而达到性能和成本的最优化。
随着以深度学习为代表的人工智能技术的飞速发展,AI计算模型越来越复杂和精确,人们对于算力和性能的需求也大幅度增加,因此,越来越多的AI计算都采用异构计算来实现性能加速。阿里云异构计算云服务研发了云端AI加速器,通过统一的框架同时支持了TensorFlow、PyTorch、MXNet和Caffe四种主流AI计算框架的性能加速,并且针对以太网和异构加速器本身进行了深入的性能优化。
阿里云异构计算产品家族介绍
下文为您介绍阿里云异构计算产品家族:GPU云服务器以及弹性加速计算实例EAIS等异构产品。而神行工具包(DeepGPU)服务于GPU云服务器,为GPU云服务器搭配了GPU计算服务增强能力,其包括AI加速器Deepytorch、通信优化库AIACC-ACSpeed、计算优化编译器AIACC-AGSpeed、集群极速部署工具FastGPU、GPU容器共享技术cGPU。
GPU云服务器
GPU云服务器是基于GPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,同时实现GPU计算资源的即开即用和弹性伸缩。满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。更多信息,请参见什么是GPU云服务器。
神行工具包(DeepGPU)
神行工具包是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,用户可以基于IaaS产品快速构建企业级服务能力。目前所有神行工具包中的组件都是免费搭配阿里云GPU服务器使用,帮助用户更方便、更高效地使用阿里云上的GPU资源。神行工具包主要包括以下几个组件:
AI加速器Deepytorch:是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能,包含Deepytorch Training和Deepytorch Inference两个软件包。更多信息,请参见什么是Deepytorch。
AI分布式训练通信优化库AIACC-ACSpeed:是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本,基于模块化的解耦优化设计方案。更多信息,请参见什么是AI分布式训练通信优化库AIACC-ACSpeed。
AI训练计算优化编译器AIACC-AGSpeed:是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能。更多信息,请参见什么是计算优化编译器AIACC-AGSpeed。
集群极速部署工具FastGPU:是一套阿里云推出的人工智能计算极速部署工具。更多信息,请参见什么是集群极速部署工具FastGPU。
GPU容器共享技术cGPU:是阿里云基于内核虚拟GPU隔离的容器共享技术,助力您在GPU中快速便捷地部署容器,实现多个容器共享一张GPU卡,使业务安全隔离,提高GPU硬件资源的利用率并降低使用成本。更多信息,请参见什么是GPU容器共享技术cGPU。
弹性加速计算实例EAIS
EAIS是一款阿里云提供的性能卓越、成本优化、弹性扩展的IaaS(Infrastructure as a Service)级别弹性计算服务。实现了异构计算资源的弹性挂载,即前端可以使用不带异构加速的ECS实例,后端可以动态挂载或卸载GPU实例,让普通的ECS具备异构计算加速的能力,使CPU资源与GPU资源成功解耦。EAIS让CPU与异构加速器的数量配比实现了灵活可配置,从而满足AI推理等场景对于CPU和异构加速器的数量配比的不同需求。同时,后端的GPU实例通过池化管理和调度,可以灵活选择最适合您工作负载的异构加速器,降低异构加速成本。更多信息,请参见什么是弹性加速计算实例EAIS。