本教程利用FastGPU工具一键构建阿里云上的AI训练环境,并使用AIACC加速工具进行加速。

场景描述

目前,FastGPU为您提供以下三个训练场景demo,您可以根据需要前往GitHub下载。
  • GTC-demo:PyTorch手势识别训练。
  • InsightFace:MxNet人脸识别训练。
  • Bert模型:TensorFlow语音识别训练。

实现的方式

  • 使用FastGPU快速构建AI训练环境。
  • 快速进行AI POC性能测试。

部署架构图

FastGPU架构图
可分为以下步骤:
  1. 在开发环境或ClusterShell定制FastGPU相关参数。
  2. 根据配置启用环境。
  3. 训练测试完毕,保存结果。
  4. 销毁环境,释放资源。

选用的产品

  • GPU服务器

    GPU云服务器是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。

    更多关于GPU服务器的介绍,请参见GPU服务器产品详情页

  • 文件存储CPFS

    文件存储CPFS(Cloud Parallel File Storage),是阿里云完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合IO、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。

    更多关于文件存储CPFS的介绍,请参见文件存储CPFS详情页

  • 对象存储OSS

    阿里云对象存储服务(Object Storage Service),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务设计可用性(或业务连续性)不低于99.995%。

    更多关于对象存储OSS的介绍,请参见对象存储OSS产品详情页

  • 专有网络VPC

    专有网络VPC帮助您基于阿里云构建出一个隔离的网络环境,并可以自定义IP地址范围、网段、路由表和网关等;此外,也可以通过专线、VPN、GRE等连接方式实现云上VPC与传统IDC的互联,构建混合云业务。

    更多关于专有网络VPC的介绍,请参见专有网络VPC产品详情页

详细信息

点击查看最佳实践详情

更多最佳实践

点击查看更多阿里云最佳实践