资源类型 | 提交的训练任务支持使用公共资源组或专有资源组。 |
优先级 | 当资源类型选择专有资源组时,支持配置该参数。 同时运行的任务执行优先级,取值范围为[1,9],取值为1表示优先级最低。 |
节点镜像 | 工作节点的镜像。当前支持选择使用不同类型的镜像: |
任务类型 | 支持以下类型:- Tensorflow
- PyTorch
- XGBoost
- OneFlow
- ElasticBatch
|
数据集配置 | 指定任务运行过程中,任务数据的存储位置。 如果您提交的训练任务需要更大的存储空间,可以配置数据集。 此处需配置为前期已准备好的数据集,数据集配置方式请参见(可选)准备数据集。 |
代码配置 | 指定任务代码文件的存储位置(代码仓库信息)。此处需配置为此前已准备好的代码配置,配置方式请参见(可选)准备代码集。
说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。 |
执行命令 | 本任务需要执行的命令。支持Shell命令,例如,使用python -c "print('Hello World')" 运行Python。 |
三方库配置 | 支持以下两种方式配置第三方库:- 三方库列表:直接在下方文本框中输入三方库。
- requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
|
容错监控 | 打开容错监控开关,系统提供作业检测和控制能力,可以及时检测出训练任务算法层面的报错,从而规避错误,提升GPU利用率。比如:额外参数配置为--enable-job-hang-detection=true --job-hang-interval=3600表示开启log hang检测,配置检测时长为3600秒。
说明 目前,马来西亚(吉隆坡)地域不支持容错监控功能。 |
专有网络配置 | 当资源类型选择公共资源组时,支持配置该参数。 选择当前地域可用的专有网络,并选择对应的交换机与安全组。 配置完成后,任务运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。
说明 当前运行PAI-DLC任务时,需保障任务资源组实例、数据集存储(OSS)在同一地域的VPC网络环境中,且与代码仓库的网络是连通状态。 |