全部产品
云市场

PAI TF任务参数介绍

更新时间:2020-05-12 15:31:17

1. PAI Tensorflow命令参数

完整的 PAI 命令及其参数如下,可以在Dataworks SQL节点和MaxCompute的命令行客户端以PAI命令的方式发起任务:

  1. # 实际使用中,需要根据需要设置参数(**不要直接复制下面的命令!**),各个参数的含义可以参考后面的表格
  2. pai -name tensorflow1120_ext
  3. -project algo_public
  4. -Dscript= 'oss://<bucket_name>.<oss_host>.aliyuncs.com/*.tar.gz'
  5. -DentryFile='entry_file.py'
  6. -Dbuckets='oss://<bucket_name>.<oss_host>.aliyuncs.com/<path>'
  7. -Dtables='odps://prj_name/tables/table_name'
  8. -Doutputs='odps://prj_name/tables/table_name'
  9. -DcheckpointDir='oss://<bucket_name>.<oss_host>.aliyuncs.com/<path>'
  10. -Dcluster="{\"ps\":{\"count\":1},\"worker\":{\"count\":2,\"gpu\":100}}"
  11. -Darn="acs:ram::******:role/aliyunodpspaidefaultrole"
  12. -DossHost="oss-cn-beijing-internal.aliyuncs.com"

注意:PAI-TF目前有tensorflow1120_ext、tensorflow1120_ext_cpu 和tensorflow180_ext三个版本。其中tensorflow1120_ext只支持GPU任务;tensorflow1120_ext_cpu只支持CPU任务,发送任务的时候需要在Cluster参数中将GPU:0。

各个参数的具体含义如下表:

参数名称 参数描述 参数值格式 默认值
script Tensorflow模型文件(python),可以是本地的文件,也可以是本地的tar包(gzip压缩,扩展名是tar.gz),也可以直接是python文件 “oss://..aliyuncs.com/.tar.gz”or””oss://..aliyuncs.com/*.py””。例如“oss://demo-yuze.oss-cn-beijing-internal.aliyuncs.com/deepfm/deepfm.tar.gz” -
entryFile 如果script是一个tar包,则需通过该参数指定入口脚本 入口脚本名称如”main.py” 如果script是单个脚本则无需填写。
buckets 可选,输入bucket,可多个,以逗号隔开, 每个bucket须以”/“结尾 “oss://..aliyuncs.com/
tables 可选,输入表,可多个,以逗号隔开 “odps:///tables/
outputs 可选,输出表,可多个,以逗号隔开 “odps:///tables/“”odps:///tables/
gpuRequired 可选,标识是否使用GPU。默认是一张卡,200表示申请2张卡。该功能只适用于单机训练任务,多机任务请参考Cluster惨。如果想跑单机CPU,可以将gpuRequired参数值设置为0(该功能只支持tensorflow1120). 100 yes
checkpointDir 可选,TF checkpoint目录 “oss://..aliyuncs.com/
enableDynamicCluster 可选,指定是否打开单个worker节点failover的功能。当这一参数设置为true时,worker节点出现故障时会被重新拉起,训练job不会因此而失败。 truefalse false
jobName (1.12之后新增参数)用户需要指定实验名称,用于在后期更好的分析用户历史所有这个实验的性能指标等。 参数建议是一个有意义的字符串,避免是test之类的字符串。例如:”jk_wdl_online_job”
maxHungTimeBeforeGCInSeconds 可选,提交作业时新增-DmaxHungTimeBeforeGCInSeconds参数,用于设置自动回收需要观察到GPU“挂起”状态的最大持续时间 3600。设置为0,则关闭该功能。 3600

其中,参数script用于指定要执行的TF算法脚本,script的格式为:“file:///path/to/file”(绝对路径),或者: “project_name/resources/resource_name”

参数gpuRequired决定了运行script参数所指定的训练脚本的机器是否需要GPU。默认值为yes,即表示当使用PAI命令提交了训练任务以后,PAI命令中指定的训练脚本将在有GPU的机器上执行。

2. IO相关参数说明

参数tables用于指定需要读取的Table路径。

参数outputs用于指定要写入的Table路径,如果要指定多个路径,可以按照逗号分割。

非分区表Table路径格式:odps://<prj_name>/tables/<table_name>

分区表Table路径格式:odps://<proj_name>tables/<table_name>/<pt_key1=v1>

多级分区表Table路径格式:odps://<prj_name>tables/<table_name>/<pt_key1=v1>/<pt_key2=v2>

参数buckets用于指定算法将要读取的Oss bucket,同其他MaxCompute IO不同,使用oss需要额外指定role_arn和host这两个配置,

role_arn获取方式如下:需要主账号登录PAI-Studio,点击左侧设置,点击OSS访问授权,得到role_arn

参数checkpointDir用于指定算法将要写入的Oss bucket