场景描述

本方案适用于AI图片训练场景,尤其是对性能要求苛刻,业务交付紧迫的场景。例如自动驾驶的模型训练(图片)等AI模型训练的场景。本方案使用了SCC超级计算集群,采用弹性裸金属GPU服务器+并行文件系统CPFS+RDMA网络+阿里云容器服务Kubernetes版+飞天AI加速训练工具,提供极致性能稳定的训练环境,保障业务能力。

解决的问题

  • 搭建AI图片训练基础环境
  • 使用CPFS存储训练数据
  • 使用飞天AI加速训练工具加速训练
  • 使用Arena一键提交作业

部署架构图

弹性裸金属AI训练

选用的产品

  • 容器服务 ACK

    容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

    更多关于容器服务 ACK的介绍,参见容器服务 ACK产品详情页

  • 文件存储CPFS

    文件存储CPFS (Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探,气象分析,机器学习,大数据分析以及影视渲染等业务场景中。

    更多关于文件存储CPFS的介绍,参见文件存储CPFS详情页

  • 超级计算集群

    超级计算集群(Super Computing Cluster,SCC)使用高速RDMA网络互联的CPU以及GPU等异构加速设备,面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用,提供极致计算性能和并行效率的计算集群服务。

    更多关于超级计算集群的介绍,参见超级计算集群产品详情页面

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习,视频处理,科学计算,图形可视化,等应用场景。

    更多关于GPU服务器的介绍,参见GPU服务器产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践