本文介绍如何利用DLC基于PyTorch进行离线迁移学习的训练。
步骤一:准备数据
本文使用的数据已经预存到公开地址(下载数据),您无需进行额外的数据准备。
步骤二:准备训练代码和模型存储文件
本文使用的训练代码已经预存到公开地址(下载训练代码),您无需进行额外的代码开发。
步骤三:创建任务
进入新建任务页面。
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入DLC。
在分布式训练(DLC)页面,单击新建任务。
在新建任务页面,仅配置如下参数,其他参数无需配置。
参数
描述
基本信息
任务名称
填写任务名称,例如torch-sample。
环境信息
节点镜像
单击官方镜像,并在下方的列表中选择PyTorch镜像。
数据集
如果您希望保存训练结果到本地,可以通过挂载自定义数据集的方式将结果保存到相应的文件系统中。本方案以挂载对象存储OSS数据集为例,单击自定义数据集,并配置以下参数:
自定义数据集:选择已创建的对象存储OSS数据集。如何创建数据集,请参见创建及管理数据集。
挂载路径:配置为
/mnt/data/
。
启动命令
填写如下命令,其中包括下载数据、下载代码、执行训练任务、检查模型,以及将训练结果保存到已挂载数据集目录的步骤。
wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz && tar -xf ./data.tar.gz && mv ./hymenoptera_data/ ./input && mkdir output && wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py && python main.py -i ./input -o ./output && ls ./output && cp -r ./output /mnt/data
资源信息
资源来源
选择公共资源。
框架
选择PyTorch。
任务资源
节点数量:配置为1。
资源规格:单击
,并选择资源规格,例如 。如果该规格在当前地域不可用,您可以选择切换至其他地域以创建训练任务。目前,分布式训练DLC支持使用后付费模式的地域列表,请参见分布式训练DLC。
单击确定。
页面自动跳转到分布式训练(DLC)页面。
步骤四:查看任务详情和日志结果
在分布式训练(DLC)页面,单击任务名称。
在任务概览页面,即可查看任务的基本信息及资源信息等。
在任务概览页面底部的实例区域,单击目标实例操作列下的日志,即可查看日志结果。
您可以前往已挂载数据集的对应文件系统中查看输出结果。以对象存储OSS为例,输出结果如下图所示,您的结果以实际为准。