资源类型 |
提交的训练任务支持使用公共资源组或专有资源组。
|
优先级 |
当资源类型选择专有资源组时,支持配置该参数。 同时运行的任务执行优先级,取值范围为[1,9],取值为1表示优先级最低。 |
节点镜像 |
工作节点的镜像。当前支持选择使用不同类型的镜像:
- 社区镜像:由社区提供的标准镜像,不同的镜像的详情请参见社区镜像版本详情。
- PAI平台镜像:由阿里云PAI产品提供的多种官方镜像,支持不同的资源类型、Python版本及深度学习框架TensorFlow和PyTorch,镜像列表请参见公共镜像列表。
- 用户自定义镜像:可选择使用您添加到PAI的自定义的镜像,选择前,您需要先将自定义镜像添加到PAI中,操作详情请参见查看并添加镜像。
- 镜像地址:可选择使用您自定义的镜像,选择镜像地址后,您需要在配置框中配置公网环境下可访问的Docker Registry Image URL。
|
任务类型 |
支持以下类型:
- Tensorflow
- PyTorch
- XGBoost
- OneFlow
|
数据集配置 |
指定任务运行过程中,任务数据的存储位置。 如果您提交的训练任务需要更大的存储空间,可以配置数据集。 此处需配置为前期已准备好的数据集,数据集配置方式请参见(可选)准备数据集。 |
代码配置 |
指定任务代码文件的存储位置(代码仓库信息)。此处需配置为此前已准备好的代码配置,配置方式请参见(可选)准备代码集。
说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。
|
执行命令 |
本任务需要执行的命令。支持Shell命令,例如,使用python -c "print('Hello World')" 运行Python。 |
三方库配置 |
支持以下两种方式配置第三方库:
- 三方库列表:直接在下方文本框中输入三方库。
- requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
|
容错监控 |
打开容错监控开关,系统提供作业检测和控制能力,可以及时检测出训练任务算法层面的报错,从而规避错误,提升GPU利用率。比如:额外参数配置为--enable-job-hang-detection=true --job-hang-interval=3600表示开启log hang检测,配置检测时长为3600秒。
说明 目前,马来西亚(吉隆坡)地域不支持容错监控功能。
|
专有网络配置 |
当资源类型选择公共资源组时,支持配置该参数。 选择当前地域可用的专有网络,并选择对应的交换机与安全组。 配置完成后,任务运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。
说明 当前运行PAI-DLC任务时,需保障任务资源组实例、数据集存储(OSS)在同一地域的VPC网络环境中,且与代码仓库的网络是连通状态。
|