本教程利用FastGPU工具一键构建阿里云上的AI训练环境,并使用AIACC加速工具进行加速。
场景描述
目前,FastGPU为您提供以下三个训练场景demo,您可以根据需要前往GitHub下载。
- GTC-demo:PyTorch手势识别训练。
- InsightFace:MxNet人脸识别训练。
- Bert模型:TensorFlow语音识别训练。
实现的方式
- 使用FastGPU快速构建AI训练环境。
- 快速进行AI POC性能测试。
部署架构图

可分为以下步骤:
- 在开发环境或ClusterShell定制FastGPU相关参数。
- 根据配置启用环境。
- 训练测试完毕,保存结果。
- 销毁环境,释放资源。
选用的产品
- GPU服务器
GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。
更多关于GPU服务器的介绍,请参见GPU服务器产品详情页。
- 文件存储CPFS
文件存储CPFS(Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。
更多关于文件存储CPFS的介绍,请参见文件存储CPFS详情页。
- 对象存储OSS
阿里云对象存储服务(Object Storage Service),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务设计可用性(或业务连续性)不低于99.995%。
更多关于对象存储OSS的介绍,请参见对象存储OSS产品详情页。
- 专有网络VPC
专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP地址范围、网段、路由表和网关等;此外,也可以通过专线、VPN、GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。
更多关于专有网络VPC的介绍,请参见专有网络VPC产品详情页。
最佳实践详情
关于使用FastGPU进行极速AI训练的更多信息,请参见FastGPU极速AI训练/推理的最佳实践。