文档

使用FastGPU加速AI训练/推理

更新时间:

本文通过使用FastGPU工具一键构建阿里云上的AI训练/推理环境,并使用AIACC加速工具进行模型的训练或推理加速。使用FastGPU可快速搭建环境,使用AIACC可加快模型的训练/推理速度,两者协同使用,可有效提高AI模型的训练/推理效率和性能。

方案优势

  • 使用FastGPU可一键快速构建AI训练/推理环境。

  • 使用AIACC加速工具可快速测试AI POC在特定场景下的表现和性能。

部署架构图

FastGPU架构图

使用FastGPU工具时,大致可分为以下步骤:

  1. 在开发环境上通过ClusterShell定制FastGPU相关参数。

  2. 根据配置信息启用环境。

  3. 模型训练/推理测试完毕后保存结果。

  4. 销毁环境并释放资源。

选用的产品列表

产品名称

说明

GPU云服务器

该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。

对象存储OSS

是一款海量、安全、低成本、高可靠的云存储服务,多种存储类型供您选择,全面优化存储成本。可提供较高的数据持久性和数据可用性。

文件存储CPFS

阿里云推出的全托管、可扩展并行文件系统,满足高性能计算场景的需求。CPFS提供了统一的命名空间,支持成百上千的机器同时访问,拥有数十GB的吞吐、数百万的IOPS能力的同时还能保证亚毫秒级的延时。

专有网络VPC

该网络由逻辑网络设备(如虚拟路由器,虚拟交换机)组成,可通过专线、VPN等连接方式与传统数据中心组成一个按需定制的网络环境,实现应用的平滑迁移上云。

最佳实践详情

关于使用FastGPU进行极速AI训练/推理的更多信息,请参见FastGPU极速AI训练/推理的最佳实践

  • 本页导读 (1)
文档反馈