什么是集群极速部署工具FastGPU

FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。

FastGPU介绍

FastGPU作为衔接您的线下人工智能算法和线上阿里云海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里云的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,即可达到简单适配、一键部署、随处运行的效果。

FastGPU提供以下两套组件:

  • 运行时组件ncluster:提供便捷的接口将线下的人工智能训练和推理脚本快速部署在阿里云的IaaS资源上,更多运行时组件使用说明请参见Python SDK使用说明

  • 命令行组件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能计算任务的运行状态和集群的生命周期,更多命令行组件使用说明请参见命令行使用说明

组成模块

FastGPU的组成模块如下图所示。fastgpu-arc

  • 底层:调用阿里云的API来实现阿里云云上资源的交互层。

  • 中间层:在人工智能任务运行时,对涉及的IaaS层资源所需的对象进行封装后形成的阿里云后端层。

  • 上层:对人工智能任务与相应的阿里云实例资源进行映射,适配后形成的用户控制层。

    您只需调用用户控制层,即可快速构建阿里云上的IaaS级人工智能计算任务。

典型流程

使用FastGPU完成AI计算任务的典型流程如下图所示。

fastgpu

例如,使用FastGPU完成一项训练任务:

  1. 在用户起始状态阶段:

    将训练数据集上传到对象存储中,并创建一台ECS实例(作为开发主机)存放训练代码。

  2. 在FastGPU即刻构建计算任务阶段:

    1. 在开发主机上通过FastGPU一键部署集群,创建出任务所需的资源,包括计算资源(CPU、GPU)、存储资源(云盘、NAS文件系统等)、交互式资源(Tmux、Tensorboard)等。

    2. 自动启动分布式训练任务,在训练过程中支持通过交互式资源实时查看训练情况。

    3. 分布式训练任务完成后自动释放资源。

  3. 在用户完成状态阶段:

    将训练得到的模型和log文件存放在开发主机的云盘或对象存储OSS上,供您查看任务结果。