使用分布式训练DLC快速提交单机PyTorch迁移学习任务_人工智能平台 PAI(PAI)-阿里云帮助中心

备案控制台

输入文档关键字查找

本文介绍如何利用DLC基于PyTorch进行离线迁移学习的训练。

步骤一：准备数据

本文使用的数据已经预存到公开地址（下载数据），您无需进行额外的数据准备。

步骤二：准备训练代码和模型存储文件

本文使用的训练代码已经预存到公开地址（下载训练代码），您无需进行额外的代码开发。

步骤三：创建任务

进入新建任务页面。
1. 登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入DLC。
2. 在分布式训练（DLC）页面，单击新建任务。

在新建任务页面，仅配置如下参数，其他参数无需配置。

参数		描述

参数		描述
基本信息	任务名称	填写任务名称，例如torch-sample。
环境信息	节点镜像	单击官方镜像，并在下方的列表中选择PyTorch镜像。
	数据集	如果您希望保存训练结果到本地，可以通过挂载自定义数据集的方式将结果保存到相应的文件系统中。本方案以挂载对象存储OSS数据集为例，单击自定义数据集，并配置以下参数：自定义数据集：选择已创建的对象存储OSS数据集。如何创建数据集，请参见创建及管理数据集。挂载路径：配置为`/mnt/data/`。
	启动命令	填写如下命令，其中包括下载数据、下载代码、执行训练任务、检查模型，以及将训练结果保存到已挂载数据集目录的步骤。 `wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz && tar -xf ./data.tar.gz && mv ./hymenoptera_data/ ./input && mkdir output && wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py && python main.py -i ./input -o ./output && ls ./output && cp -r ./output /mnt/data`
资源信息	资源来源	选择公共资源。
	框架	选择PyTorch。
	任务资源	节点数量：配置为1。资源规格：单击，并选择资源规格，例如GPU > ecs.gn6e-c12g1.3xlarge。如果该规格在当前地域不可用，您可以选择切换至其他地域以创建训练任务。目前，分布式训练DLC支持使用后付费模式的地域列表，请参见分布式训练DLC。

单击确定。
页面自动跳转到分布式训练（DLC）页面。

步骤四：查看任务详情和日志结果

在分布式训练（DLC）页面，单击任务名称。
在任务概览页面，即可查看任务的基本信息及资源信息等。
在任务概览页面底部的实例区域，单击目标实例操作列下的日志，即可查看日志结果。
您可以前往已挂载数据集的对应文件系统中查看输出结果。以对象存储OSS为例，输出结果如下图所示，您的结果以实际为准。

上一篇：分布式训练（DLC）下一篇：使用NAS提交单机PyTorch迁移学习任务

该文章对您有帮助吗？

本页导读（1）

步骤一：准备数据

步骤二：准备训练代码和模型存储文件

步骤三：创建任务

步骤四：查看任务详情和日志结果