阿里云异构计算产品总览

阿里云异构计算产品为您提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。

什么是异构计算

异构计算(Heterogeneous Computing)是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,目前主要包括GPU云服务器、FPGA云服务器以及弹性加速计算实例EAIS等。异构计算能够让最适合的专用硬件去服务最适合的业务场景,在特定场景下,异构计算产品比普通的云服务器高出一个甚至更多数量级的性价比和效率。异构计算的显著优势在于实现了让性能、成本和功耗三者均衡的技术,通过让最合适的专用硬件去做最适合的事来调节功耗,从而达到性能和成本的最优化。

随着以深度学习为代表的人工智能技术的飞速发展,AI计算模型越来越复杂和精确,人们对于算力和性能的需求也大幅度增加,因此,越来越多的AI计算都采用异构计算来实现性能加速。阿里云异构计算云服务研发了云端AI加速器,通过统一的框架同时支持了TensorFlow、PyTorch、MXNetCaffe四种主流AI计算框架的性能加速,并且针对以太网和异构加速器本身进行了深入的性能优化。

阿里云异构计算产品家族介绍

下文为您介绍阿里云异构计算产品家族:GPU云服务器以及弹性加速计算实例EAIS等异构产品。而神行工具包(DeepGPU)服务于GPU云服务器,为GPU云服务器搭配了GPU计算服务增强能力,其中,包括Deepytorch、DeepNCCL、DeepGPU-LLM、FastGPU以及cGPU。

  • GPU云服务器

    GPU云服务器是基于GPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里云弹性计算家族的一员,GPU云服务器结合了GPU计算力与CPU计算力,同时实现GPU计算资源的即开即用和弹性伸缩。满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。更多信息,请参见什么是GPU云服务器

  • 神行工具包(DeepGPU)

    神行工具包是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合,用户可以基于IaaS产品快速构建企业级服务能力。目前所有神行工具包中的组件都是免费搭配阿里云GPU服务器使用,帮助用户更方便、更高效地使用阿里云上的GPU资源。神行工具包主要包括以下几个组件:

    • Deepytorch:是阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能,包含Deepytorch TrainingDeepytorch Inference两个软件包。更多信息,请参见什么是Deepytorch

    • DeepNCCL:阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库。在AI分布式训练或多卡推理任务中用于提升通信效率。更多信息,请参见什么是AI通信加速库DeepNCCL

    • DeepGPU-LLM:是阿里云研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)的推理引擎,可以为您提供高性能的大模型推理服务。更多信息,请参见什么是推理引擎DeepGPU-LLM

    • FastGPU:是一套阿里云推出的人工智能计算极速部署工具。更多信息,请参见什么是集群极速部署工具FastGPU

    • cGPU:是阿里云基于内核虚拟GPU隔离的容器共享技术,助力您在GPU中快速便捷地部署容器,实现多个容器共享一张GPU卡,使业务安全隔离,提高GPU硬件资源的利用率并降低使用成本。更多信息,请参见什么是GPU容器共享技术cGPU

  • 弹性加速计算实例EAIS

    EAIS是一款阿里云提供的性能卓越、成本优化、弹性扩展的IaaS(Infrastructure as a Service)级别弹性计算服务。其实现了异构计算资源的弹性挂载,即前端可以使用不带异构加速的ECS实例,后端可以动态挂载或卸载GPU实例,让普通的ECS具备异构计算加速的能力,使CPU资源与GPU资源成功解耦。EAISCPU与异构加速器的数量配比实现了灵活可配置,从而满足AI推理等场景对于CPU和异构加速器的数量配比的不同需求。同时,后端的GPU实例通过池化管理和调度,可以灵活选择最适合您工作负载的异构加速器,降低异构加速成本。更多信息,请参见什么是弹性加速计算实例EAIS