快速提交单机PyTorch迁移学习任务

本文介绍如何利用DLC基于PyTorch进行离线迁移学习的训练。

步骤一:准备数据

本文使用的数据已经预存到公开地址(下载数据),您无需进行额外的数据准备。

步骤二:准备训练代码和模型存储文件

本文使用的训练代码已经预存到公开地址(下载训练代码),您无需进行额外的代码开发。

步骤三:创建任务

  1. 进入新建任务页面。

    1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入DLC

    2. 分布式训练(DLC)页面,单击新建任务

  2. 新建任务页面,仅配置如下参数,其他参数无需配置。

    image

    参数

    描述

    基本信息

    任务名称

    填写任务名称,例如torch-sample

    环境信息

    节点镜像

    单击官方镜像,并在下方的列表中选择PyTorch镜像。

    启动命令

    填写如下命令,其中包括了下载数据、下载代码、执行训练任务及检查模型的步骤。

    wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/data.tar.gz && tar -xf ./data.tar.gz && mv ./hymenoptera_data/ ./input && mkdir output && wget https://pai-public-data.oss-cn-beijing.aliyuncs.com/hol-pytorch-transfer-cv/main.py && python main.py -i ./input -o ./output && ls ./output

    资源信息

    资源来源

    选择公共资源

    框架

    选择PyTorch

    任务资源

    • 节点数量:配置为1。

    • 资源规格:单击image,并选择资源规格,例如GPU > ecs.gn6e-c12g1.3xlarge。如果该规格在当前地域不可用,您可以选择切换至其他地域以创建训练任务。目前,分布式训练DLC支持使用后付费模式的地域列表,请参见分布式训练DLC

  3. 单击确定

    页面自动跳转到分布式训练(DLC)页面。

步骤四:查看任务详情和日志结果

  1. 分布式训练(DLC)页面,单击任务名称。

  2. 在任务详情页面,即可查看任务的基本信息资源信息等。

  3. 在任务详情页面底部的实例区域,单击目标实例操作列下的日志,即可查看日志结果。image