通过控制台创建作业

作业指提交到E-HPC集群进行高性能计算的基本工作单元,包括Shell脚本、可执行文件等,具体作业执行顺序根据您设置的队列以及调度器决定。E-HPC管理控制台提供了作业相关的创建作业、停止作业、查看作业状态等功能,本文介绍如何使用E-HPC管理控制台创建作业。

前提条件

  • 集群和集群节点状态都为运行中

  • 已创建用户,具体操作,请参见创建用户

  • 已准备好作业文件。E-HPC支持多种方式导入作业文件:

    • 提前登录集群,通过rsync、scp等远程传输方式将作业导入到集群中。

    • 上传作业数据到OSS,创建作业时选择OSS Bucket中的作业文件。

    • 选择本地保存的作业文件或新建作业文件。

操作步骤

  1. 登录弹性高性能计算控制台

  2. 在顶部菜单栏左上角处,选择地域。

  3. 在左侧导航栏,选择作业与性能管理 > 作业

  4. 作业页面右上角,单击创建作业

  5. 在创建作业页面,完成作业参数配置。

    配置项

    描述

    用户名密码

    执行该作业使用的用户名和密码。

    作业名

    该作业的名称。如需自动下载解压作业文件,解压目录也以作业名命名。

    作业模板

    可选择已配置的作业模板快速创建作业。更多信息,请参见创建作业模板

    作业执行命令

    向调度器提交的作业执行命令,可以是脚本文件(如/home/test目录下的job.pbs),也可以是一段命令文本。有以下两种情况:

    • 脚本文件可执行,填写相对路径,如./job.pbs

    • 脚本文件没有可执行权限,则需要填写执行命令,如:/opt/mpi/bin/mpirun /home/test/job.pbs。如果是PBS调度器,还需要在命令前加,如:— /opt/mpi/bin/mpirun /home/test/job.pbs

    调度器队列

    在创建集群时,若计算节点已加入了指定的队列,则需要将作业提交到对应的指定队列;若没有指定,则默认将作业提交到调度器的默认队列中。选择的队列应与计算节点相对应,否则作业会执行失败。

    计算节点数

    用来运行此作业的的计算节点数。

    任务数

    每个计算节点运行此作业使用的任务数,即进程数。

    最大内存

    每个计算节点运行此作业可使用的最大内存,为空时不限制内存大小。

    最大运行时间

    作业最长运行时间,超时作业将失败,为空时不限制运行时间。

    线程数

    每个任务所使用的线程数,为空时线程数为1。

    GPU数

    每个计算节点运行此作业使用的GPU数。使用该参数时请确认计算节点为GPU实例。

    作业优先级

    作业优先级,取值范围0~9,取值越大,优先级越高。如果集群的调度策略设置为根据优先级调度,高优先级的作业会被优先调度运行。

    在提交了多个作业时,对于需要优先执行的作业,您可以通过设置高优先级来优先执行。

    启动job array

    是否启用调度器的job array功能。job array可自定义选择执行作业的规则。

    作业队列长度设置格式X-Y[:Z], 最小值X是第一个索引,最大值Y是最后一个索引,Z表示步长,例如2-7:2, 表示生成的job array包含编号为2,4,6的3个子作业,如果Z不指定的话,默认是1。

    后处理命令

    后处理命令在作业成功执行完成后执行,用于对作业结果做后续处理,如打包上传OSS等。

    标准输出路径

    定义Linux系统的stderr/stdout输出重定向路径,包含输出文件名。

    • stdout:标准文件输出路径。

    • stderr:错误文件输出路径。

    集群用户必须有该路径的可写权限,默认按照调度器设置生成输出文件。

    错误输出路径

    作业变量

    传递到作业的运行时变量,可以在作业执行文件中通过环境变量访问。

    使用OSS文件

    可选择已上传到OSS上的作业文件。E-HPC在执行作业时可自动下载该作业文件。

    关于如何导入作业文件,请参见导入OSS作业文件到集群中

    编辑作业文件

    可新建空白作业文件、使用本地作业文件、使用模板新建作业文件。当存在多个作业文件时,可通过显示文件列表来进行查看、编辑、删除操作。

    下载后解压

    打开该选项后,E-HPC在执行作业之前会自动解压作业文件包,目前支持zip格式、tar打包以及gzip格式。

    说明

    E-HPC会将压缩包解压到当前工作目录(即home目录)下以作业名命名的文件夹中,如果要执行压缩包内的脚本,需要加上作业名目录。

  6. 单击确认,作业将提交至集群,开始执行。

执行结果

创建作业完成后,在作业列表页即可查看已提交的作业。

单击该作业操作列的详情。在弹出的作业信息面板页,即可查看作业的详细信息,包括作业名称、作业ID、开始时间、最后更新时间、作业运行信息等。

后续步骤

在提交作业前,您可以导出作业配置文件,当您下次创建作业时直接导入作业配置文件即可完成作业配置。

  • 导出作业配置

    1. 作业页面,单击导出作业配置

    2. 作业配置文件即可下载到本地。

  • 导入作业配置

    1. 作业页面,单击导入作业配置

    2. 在本地文件夹中选择作业配置文件,单击打开。