本文为您介绍如何使用PyTorch组件。

使用流程

在深度学习组件列表中找到PyTorch组件,同时找到读OSS数据组件,PyTorch只支持读取OSS数据。1

配置组件

您可以通过以下任意一种方式,配置PyTorch参数:
  • 可视化方式
    页签 参数 描述
    参数设置 Python版本 可以在2.7和3.6版本之间切换。
    Python代码文件 选择代码路径,如果上传的是tar.gz工程,需要在下一个框指定主文件。如果直接上传单个py文件,则不需要再指定主文件。
    Python主文件 指定执行的主代码文件,可选。单个文件不需要指定,压缩包需要指定文件目录结构,例如train/train.py
    OSS数据源目录 OSS路径。
    配置文件超参及用户自定义参数 超参文件,Key,Value格式。
    checkpoint输出目录/模型输入目录 模型输出路径。
    是否限制作业运行时长 设置是否启用限制作业运行的时长。
    请输入计划作业运行时长 单位:小时。默认值为24小时。
    执行调优 指定worker GPU卡数 每个Worker中的GPU卡。
    指定worker个数 分布式机器数。
  • PAI命令方式
    PAI -name pytorch_ext  -DossHost="oss-cn-beijing-internal.aliyuncs.com"
          -Dcluster="{\"worker\":{\"gpu\":100}}" -DworkerCount="2"
          -Dpython="3.6"
          -Dinputs="oss://${OSS bucket名字}.oss-cn-beijing-internal.aliyuncs.com/mnist/"
          -Darn="acs:ram::168069136******:role/aliyunodpspaidefaultrole"
          -Dscript="oss://${OSS bucket名字}.oss-cn-beijing-internal.aliyuncs.com/pytorch/pytorch_dist_mnist.py"
          -DcheckpointDir="oss://${OSS bucket名字}.oss-cn-beijing-internal.aliyuncs.com/pytorch/";
    参数名称 描述
    DossHost OSS的Host地址。
    Dcluster 每个Worker的GPU卡个数,100等于1张卡,200等于2张卡。
    DworkerCount 指定Worker的个数。
    Dpython Python版本,2.7或3.6。
    Dinputs 输入的数据源路径。
    Darn OSS的rolearn。
    Dscript 执行的代码文件。
    DcheckpointDir 模型存储路径。
    DhyperParameters 超参文件。
    1代码中需要通过指定parser对像获取WEB端配置的参数内容,例如在组件参数中配置了OSS数据源路径,在代码中可以通过inputs对象获取路径,详细用法请参见示例

示例

  1. 下载pytorch分布式处理mnist文件代码并上传至OSS,需要填写您的AccessKey信息。4
  2. 下载mnist训练文件和mnist测试文件上传至OSS文件夹下。
  3. 根据业务需求配置参数。
    示例如下。5
  4. 配置资源。
    样例代码是分布式代码,所以Worker个数需要大于1。示例如下。6