SGE集群1.1版本

批量计算支持自动化搭建 Sun Grid Engine(SGE)集群。

批量计算使用的是 CentOS 自带的 SGE 版本,请参考 SGE

批量计算提供了名为 BatchCompute SGE 的公共镜像,使用该镜像可快速、可靠的构建 SGE 集群,具体的流程如下:

请在云市场 搜索关键字 BatchCompute SGE 了解该镜像,它完全免费使用,使用流程请参考 如何通过镜像创建实例

2. 自定义镜像(可选)

本步骤可选,如对镜像没有特殊需求,可直接进入下一步。如果需要在此系统镜像基础上安装软件,必须基于 BatchCompute SGE 制作自定义镜像 。

  • 必须在 BatchCompute SGE V1.1 版本镜像基础上制作新镜像。

  • BatchCompute SGE V1.1 版本在原有支持命令行创建 SGE 集群的基础上,推出控制台一键创建 SGE 集群。无需用户通过命令行创建、扩容,以及删除 SGE集群操作。

  • 制作镜像过程中,请务必不要执行任何有关 SGE 的命令,并且不要更新 python 。

  • 镜像制作完成后需要注册给 BatchCompute 。

3. 控制台创建 SGE 集群

3.1. 设置集群名称和镜像

登录到 BatchCompute 控制台,确定集群所在的 Region 点击创建集群按钮,准备集群创建。

创建集群

选择创建 SGE 集群,若采用系统镜像则选择 sge-centos-vpc-x64(官网提供);若是采用自定义镜像则选择注册的自定义镜像。设置完成后进行下一步:

创建SGE集群

3.2. 设置组信息

根据业务需求配置 SgeMaster 的实例类型和镜像 ID。

  • SGE work节点支持设置多个组;组间实例类型、实例个数以及镜像ID 可以互不相同。

  • SGE 集群内所有 work 节点都可以在 Master 节点通过 ssh hostname 进行免密登录。

  • SGE 集群内所有 work 节点之间网络互通,不支持免密登录。

  • SGE Master 属于单独的一个组,实例类型支持和 work 不同,组内节点个数有且只有一个

创建SGE集群

3.3. 设置挂载信息

根据需求配置数据盘信息,NAS/OSS 挂载信息。

说明
  • 若添加了 OSS 挂载到本地,则只支持 OSS 的读操作。

  • 若写数据到 OSS 映射到 VM 本地路径上,则数据无法上传到 OSS 对象中,节点重启后数据丢失。

创建SGE集群

3.4. 设置网络信息

可以将网络设置到指定的 VPC ;也可以采用默认网络设置配置集群

说明
  • 若挂载有 NAS 时,网络设置必须和 NAS 保持在同一个 VPC 内;否则无法正常挂载 NAS 。

  • SGE 集群只支持 VPC 网络。

网络配置

3.5. 设置环境变量

根据业务需要进行环境变量配置操作

配置操作

3.6. 提交创建操作

设置完成后提交集群创建即可。提交成功后可以看到集群处于初始化状态。

初始化状态

4. SGE 集群查看

在集群列表页面,点击 “查看” 可以进入 SGE 集群的详细信息页面

4.1. 集群状态显示

集群状态

4.2. 集群挂载显示

挂载显示

4.3. 集群实例组显示

展示各个组内实例的类型、个数以及镜像信息。

  • SGE 集群支持按组做扩容或者缩容操作

  • 支持按组展开组内实例列表信息,查看实例在 VPC 内的 IP以及登录密码信息;

查看VPC信息

4.4. 集群实例列表显示

该页面显示实例ID、名称、hostname 以及机器IP 登录密码等信息。

  • 密码信息获取关闭密码隐藏功能方可获取。

  • 支持采用 VNC 登录方式登录到实例节点

实例列表

4.4. 集群操作日志显示

显示集群的历史操作信息

历史操作

5. SGE 集群扩容缩容

在 BatchCompute 控制台,找到指定的 SGE 集群。进入到集群详细信息标签页,在对应的实例组中直接修改期望的实例个数,点击“修改”即可。

说明

Master 组不支持进行扩容或者缩容操作

容量调整

6. SGE 集群删除

在 BatchCompute 控制台,找到指定的 SGE 集群。进入到集群详细信息标签页,点击“删除”按钮,即可删除对应的集群。

集群删除

7. 登录 SGE Master 节点

在 BatchCompute 控制台,找到指定的 SGE 集群。进入到详细信息标签页,在对应的实例组 “sgeMasterGroup”中查看实例列表信息,可以获取 Master 节点的公网 IP 以及登录密码信息。

查看信息

使用 ssh 命令登录到 Master 节点,务必使用 root 用户。

ssh root@<外网IP>

进入Master 节点后,通过 SGE 相关命令对集群进行配置提交作业操作。

说明

集群启动需要一定时间,进入 Master 后执行 SGE 命令出现无法执行,请稍等片刻后重试即可。