在Serverless集群中提交作业

创建Serverless集群后,您可以在集群中提交作业,系统会自动创建ECI实例来运行作业。本文介绍如何在Serverless集群中提交作业。

背景信息

在Serverless集群中提交作业后,系统会自动创建ECI实例来运行作业。一个ECI实例主要包含以下几部分配置:

  • 规格:可以指定ECI规格(直接指定vCPU和内存),也可以指定ECS规格来满足GPU、增强网络能力等特殊需求。两种方式对应的计费方式不同,具体请参见ECI实例计费

  • 容器:Serverless集群中的ECI实例包含1个容器,部署容器前,您需要将业务所需的环境、数据等打包制作成容器镜像,并上传到阿里云ACR中。

  • 网络:一个ECI实例将占用所属VPC下的交换机的一个弹性网卡资源,默认具备一个内网IP地址。如果有连接公网的需求,需要您为VPC绑定NAT网关。

  • 存储:默认提供30 GiB的临时存储空间,您可以根据需要增加临时存储空间。如果需要持久化存储,可以挂载NAS或者OSS。

前提条件

操作步骤

  1. 打开作业页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,选择作业与性能管理>作业

  2. 作业页面上方的集群下拉列表处,选择Serverless集群。

  3. 单击提交作业页签。

  4. 完成作业参数配置,然后单击提交作业

    提交作业时需要配置ECI实例相关参数和作业相关参数。系统会根据配置自动创建ECI实例来运行作业。

    说明

    如果想要使用类似的参数提交新的作业,您可以单击导出作业配置将当前配置保持到本地文件中。再次提交作业时,单击导入作业配置即可快速导入配置,提供工作效率。

    参数

    说明

    作业名

    作业名称。

    交换机

    ECI实例所属交换机。

    镜像 URL

    已搭建好环境的容器镜像上传到ACR的镜像地址,用于部署容器。

    启动job array

    是否启用调度器的job array功能。

    job array功能用于批量提交和管理相似的作业。启用后,需配置作业阵列长度的最小值、最大值和步长。最小值是第一个索引,最大值是最后一个索引,步长为间隔,默认是1。假设最小值为2,最大值为7,步长为2,则生成的job array包含编号为2,4,6的3个子作业。

    作业优先级

    作业运行的优先级,取值范围0~9,取值越大,优先级越高。

    临时存储

    ECI实例增加的临时存储空间大小。单位:GiB。

    每个ECI实例默认有30 GiB空间可用于临时存储,如果无法满足您的需求,可以自定义增加。增加的空间按照容量大小计费,具体请参见临时存储空间计费

    超时时间

    作业的有效期限,超出该时间后,作业会强制终止。单位为秒。

    抢占式策略

    是否创建抢占式实例类型的ECI实例。

    • 不使用抢占式实例:默认,使用正常按量付费实例。

    • 设置上限价格的抢占式实例:自定义设置每小时最高价格。

    • 系统自动出价,最高按量付费价格:系统自动出价,跟随当前市场实际价格,最高不会超出按量付费价格。

    更多信息,请参见创建抢占式实例

    CPU

    采用指定vCPU和内存的方式创建ECI实例时,ECI实例的vCPU和内存。如果没有指定,默认创建2 vCPU,4 GiB内存的ECI实例。更多信息,请参见指定vCPU和内存创建实例

    Memory

    GPU

    指定GPU规格创建ECI实例时,需要配置该参数指定容器内使用的GPU数。

    工作路径

    容器工作目录。默认在此目录下执行命令。

    实例规格

    采用指定ECS规格的方式创建ECI实例,ECI实例对应的ECS规格。更多信息,请参见指定ECS规格创建实例

    启动命令

    容器启动命令。格式要求如下:

    • 单个命令不带参数:直接输入命令,例如ls

    • 单个命令带参数:命令和参数之间用半角逗号分隔,例如ls,l

    • 多个命令顺序执行:必须使用Shell执行的方式,通过半角逗号分隔命令和参数,通过分号分隔命令,例如/bin/sh,-c,ls -l;hostname

    RAM角色

    ECI实例绑定的RAM角色。更多信息,请参见使用实例RAM角色

    作业变量

    容器的环境变量值。

    数据卷挂载

    容器挂载的数据卷。支持OSS和NAS。

    • OSS

      • Volume Mount Path:挂载到容器的目录。

      • OSS Bucket Name:OSS Bucket的名称。

      • OSS Endpoint:OSS的接入域名。Bucket和集群属于相同地域时,请使用内网地址;Bucket和集群属于不同地域时,请使用外网地址。

      • OSS Path:要挂载的OSS目录。

      • RAM Role:使用RAM角色授权时,对应的RAM角色。创建RAM角色时,可信实体类型为阿里云服务,角色类型为普通服务角色,受信服务为云服务器;为角色授权时,请选择AliyunOSSFullAccess权限策略。

    • NAS

      • Volume Mount Path:挂载到容器的目录。

      • NAS Mount Target:NAS的挂载点地址。

      • NAS Path:要挂载的NAS目录。

      • Mount options:挂载选项。建议使用默认填写的nolock,tcp,noresvport

    作业依赖

    该作业是否依赖于其他作业。如果有前后关联关系,可添加作业依赖,填写依赖的作业ID并选择依赖关系。

相关操作

提交作业后,您可以查看作业详情,以及生成的ECI资源。

  • 弹性高性能计算控制台作业页面,选择目标集群后,单击作业列表页签。在该页面可以设置状态、时间段等条件查询作业信息。

  • 弹性容器实例控制台容器组页面,可以查看自动创建的用于运行作业的ECI实例。