作业指提交到E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等,具体作业执行顺序根据您设置的队列以及调度器决定。E-HPC管理控制台提供了作业相关的提交作业、停止作业、查看作业状态等功能,本文介绍如何使用E-HPC管理控制台提交作业。
前提条件
集群和集群节点状态都为运行中。
已创建用户,具体操作,请参见管理用户。
已准备好作业文件。E-HPC支持多种方式导入作业文件:
提前登录集群,通过rsync、scp等远程传输方式将作业导入到集群中。
上传作业数据到OSS,提交作业时选择OSS Bucket中的作业文件。
选择本地保存的作业文件或新建作业文件。
操作步骤
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,选择作业性能与性能管理>作业。
在作业页面,选择待提交作业的集群。
单击提交作业页签。
在提交作业区域,完成作业参数配置。
配置项
描述
作业提交模板
您也可以选择已配置的作业模板快速提交作业。更多信息,请参见使用作业模板。
作业名
该作业的名称。如需自动下载解压作业文件,解压目录也以作业名命名。
作业执行命令
向调度器提交的作业执行命令,可以是脚本文件(如/home/test目录下的job.pbs),也可以是一段命令文本。有以下两种情况:
脚本文件可执行,填写相对路径,如
./job.pbs
。脚本文件没有可执行权限,则需要填写执行命令,如:
/opt/mpi/bin/mpirun /home/test/job.pbs
。如果是PBS调度器,还需要在命令前加--
,如:--/opt/mpi/bin/mpirun /home/test/job.pbs
。
调度器队列
在创建集群时,若计算节点已加入了指定的队列,则需要将作业提交到对应的指定队列;若没有指定,则默认将作业提交到调度器的默认队列中。选择的队列应与计算节点相对应,否则作业会执行失败。
计算节点数
用来运行此作业的计算节点数。
任务数
每个计算节点运行此作业使用的任务数,即进程数。
最大内存
每个计算节点运行此作业可使用的最大内存,为空时不限制内存大小。
最大运行时间
作业最长运行时间,超时作业将失败,为空时不限制运行时间。
线程数
每个任务所使用的线程数,为空时线程数为1。
GPU数
每个计算节点运行此作业使用的GPU数。使用该参数时请确认计算节点为GPU实例。
作业优先级
作业优先级,取值范围0~9,取值越大,优先级越高。如果集群的调度策略设置为根据优先级调度,高优先级的作业会被优先调度运行。
在提交了多个作业时,对于需要优先执行的作业,您可以通过设置高优先级来优先执行。
启动job array
是否启用调度器的job array功能。job array可自定义选择执行作业的规则。
作业队列长度设置格式X-Y[:Z], 最小值X是第一个索引,最大值Y是最后一个索引,Z表示步长,例如2-7:2, 表示生成的job array包含编号为2,4,6的3个子作业,如果Z不指定的话,默认是1。
后处理命令
后处理命令在作业成功执行完成后执行,用于对作业结果做后续处理,如打包上传OSS等。
标准输出路径
定义Linux系统的stderr/stdout输出重定向路径,包含输出文件名。
stdout:标准文件输出路径。
stderr:错误文件输出路径。
集群用户必须有该路径的可写权限,默认按照调度器设置生成输出文件。
错误输出路径
作业变量
传递到作业的运行时变量,可以在作业执行文件中通过环境变量访问。
上传作业文件到集群中。
使用OSS文件
E-HPC支持提交作业前导入作业文件或在E-HPC控制台选择OSS中的作业文件。关于如何导入作业文件,请参见导入OSS作业文件到集群中。在E-HPC控制台选择OSS中的作业文件如下所示:
在使用OSS文件区域,单击选择文件,在弹出的选择文件对话框中,选择作业文件,单击确定。
如果作业文件为zip格式、tar格式或者gzip格式的压缩包,需开启下载后解压,并选择解压命令。
说明OSS中的作业文件或作业文件压缩包,都会在作业执行前下载到以作业名命名的目录中,例如作业名为JobName,那么作业文件会被下载到/home/user/JobName目录下,压缩包会被下载并解压到/home/user/JobName目录下。
编辑作业文件
单击作业文件编辑页签。
在作业文件编辑区域,单击浏览集群文件,输入集群用户名和密码,即可以Workbench方式登录集群。您可以根据业务需要,创建、编辑、删除作业文件。
返回至提交作业区域,单击页面右上角的提交作业,在弹出的对话框中输入集群用户名和密码。将作业提交至集群,开始执行。
执行结果
提交作业完成后,在作业列表页即可查看已提交的作业。
单击该作业操作列的详情。在弹出的作业信息面板页,即可查看作业的详细信息,包括作业名称、作业ID、开始时间、最后更新时间、作业运行信息等。