通过控制台提交作业

作业指提交到E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等,具体作业执行顺序根据您设置的队列以及调度器决定。E-HPC管理控制台提供了作业相关的提交作业、停止作业、查看作业状态等功能,本文介绍如何使用E-HPC管理控制台提交作业。

前提条件

  • 集群和集群节点状态都为运行中

  • 已创建用户,具体操作,请参见管理用户

  • 已准备好作业文件。E-HPC支持多种方式导入作业文件:

    • 提前登录集群,通过rsync、scp等远程传输方式将作业导入到集群中。

    • 上传作业数据到OSS,提交作业时选择OSS Bucket中的作业文件。

    • 选择本地保存的作业文件或新建作业文件。

操作步骤

  1. 登录弹性高性能计算控制台

  2. 在顶部菜单栏左上角处,选择地域。

  3. 在左侧导航栏,选择作业性能与性能管理>作业

  4. 作业页面,选择待提交作业的集群。

  5. 单击提交作业页签。

  6. 提交作业区域,完成作业参数配置。

    配置项

    描述

    作业提交模板

    您也可以选择已配置的作业模板快速提交作业。更多信息,请参见使用作业模板

    作业名

    该作业的名称。如需自动下载解压作业文件,解压目录也以作业名命名。

    作业执行命令

    向调度器提交的作业执行命令,可以是脚本文件(如/home/test目录下的job.pbs),也可以是一段命令文本。有以下两种情况:

    • 脚本文件可执行,填写相对路径,如./job.pbs

    • 脚本文件没有可执行权限,则需要填写执行命令,如:/opt/mpi/bin/mpirun /home/test/job.pbs。如果是PBS调度器,还需要在命令前加--,如:--/opt/mpi/bin/mpirun /home/test/job.pbs

    调度器队列

    在创建集群时,若计算节点已加入了指定的队列,则需要将作业提交到对应的指定队列;若没有指定,则默认将作业提交到调度器的默认队列中。选择的队列应与计算节点相对应,否则作业会执行失败。

    计算节点数

    用来运行此作业的计算节点数。

    任务数

    每个计算节点运行此作业使用的任务数,即进程数。

    最大内存

    每个计算节点运行此作业可使用的最大内存,为空时不限制内存大小。

    最大运行时间

    作业最长运行时间,超时作业将失败,为空时不限制运行时间。

    线程数

    每个任务所使用的线程数,为空时线程数为1。

    GPU数

    每个计算节点运行此作业使用的GPU数。使用该参数时请确认计算节点为GPU实例。

    作业优先级

    作业优先级,取值范围0~9,取值越大,优先级越高。如果集群的调度策略设置为根据优先级调度,高优先级的作业会被优先调度运行。

    在提交了多个作业时,对于需要优先执行的作业,您可以通过设置高优先级来优先执行。

    启动job array

    是否启用调度器的job array功能。job array可自定义选择执行作业的规则。

    作业队列长度设置格式X-Y[:Z], 最小值X是第一个索引,最大值Y是最后一个索引,Z表示步长,例如2-7:2, 表示生成的job array包含编号为2,4,6的3个子作业,如果Z不指定的话,默认是1。

    后处理命令

    后处理命令在作业成功执行完成后执行,用于对作业结果做后续处理,如打包上传OSS等。

    标准输出路径

    定义Linux系统的stderr/stdout输出重定向路径,包含输出文件名。

    • stdout:标准文件输出路径。

    • stderr:错误文件输出路径。

    集群用户必须有该路径的可写权限,默认按照调度器设置生成输出文件。

    错误输出路径

    作业变量

    传递到作业的运行时变量,可以在作业执行文件中通过环境变量访问。

  7. 上传作业文件到集群中。

    • 使用OSS文件

      E-HPC支持提交作业前导入作业文件或在E-HPC控制台选择OSS中的作业文件。关于如何导入作业文件,请参见导入OSS作业文件到集群中。在E-HPC控制台选择OSS中的作业文件如下所示:

      1. 使用OSS文件区域,单击选择文件,在弹出的选择文件对话框中,选择作业文件,单击确定

      2. 如果作业文件为zip格式、tar格式或者gzip格式的压缩包,需开启下载后解压,并选择解压命令。

        说明

        OSS中的作业文件或作业文件压缩包,都会在作业执行前下载到以作业名命名的目录中,例如作业名为JobName,那么作业文件会被下载到/home/user/JobName目录下,压缩包会被下载并解压到/home/user/JobName目录下。

    • 编辑作业文件

      1. 单击作业文件编辑页签。

      2. 作业文件编辑区域,单击浏览集群文件,输入集群用户名和密码,即可以Workbench方式登录集群。您可以根据业务需要,创建、编辑、删除作业文件。

  8. 返回至提交作业区域,单击页面右上角的提交作业,在弹出的对话框中输入集群用户名和密码。将作业提交至集群,开始执行。

执行结果

提交作业完成后,在作业列表页即可查看已提交的作业。

单击该作业操作列的详情。在弹出的作业信息面板页,即可查看作业的详细信息,包括作业名称、作业ID、开始时间、最后更新时间、作业运行信息等。