批量计算支持自动化搭建 Sun Grid Engine(SGE)集群。
批量计算使用的是 CentOS 自带的 SGE 版本,请参考 SGE 。
批量计算提供了名为 BatchCompute SGE 的公共镜像,使用该镜像可快速、可靠的构建 SGE 集群,具体的流程如下:
请在云市场 搜索关键字 BatchCompute SGE 了解该镜像,它完全免费使用,使用流程请参考 如何通过镜像创建实例 。
2. 自定义镜像(可选)
本步骤可选,如对镜像没有特殊需求,可直接进入下一步。如果需要在此系统镜像基础上安装软件,必须基于 BatchCompute SGE 制作自定义镜像 。
必须在 BatchCompute SGE V1.1 版本镜像基础上制作新镜像。
BatchCompute SGE V1.1 版本在原有支持命令行创建 SGE 集群的基础上,推出控制台一键创建 SGE 集群。无需用户通过命令行创建、扩容,以及删除 SGE集群操作。
制作镜像过程中,请务必不要执行任何有关 SGE 的命令,并且不要更新 python 。
镜像制作完成后需要注册给 BatchCompute 。
3. 控制台创建 SGE 集群
3.1. 设置集群名称和镜像
登录到 BatchCompute 控制台,确定集群所在的 Region 点击创建集群按钮,准备集群创建。
选择创建 SGE 集群,若采用系统镜像则选择 sge-centos-vpc-x64(官网提供);若是采用自定义镜像则选择注册的自定义镜像。设置完成后进行下一步:
3.2. 设置组信息
根据业务需求配置 SgeMaster 的实例类型和镜像 ID。
SGE work节点支持设置多个组;组间实例类型、实例个数以及镜像ID 可以互不相同。
SGE 集群内所有 work 节点都可以在 Master 节点通过
ssh hostname
进行免密登录。SGE 集群内所有 work 节点之间网络互通,不支持免密登录。
SGE Master 属于单独的一个组,实例类型支持和 work 不同,组内节点个数有且只有一个
3.3. 设置挂载信息
根据需求配置数据盘信息,NAS/OSS 挂载信息。
若添加了 OSS 挂载到本地,则只支持 OSS 的读操作。
若写数据到 OSS 映射到 VM 本地路径上,则数据无法上传到 OSS 对象中,节点重启后数据丢失。
3.4. 设置网络信息
可以将网络设置到指定的 VPC ;也可以采用默认网络设置配置集群
若挂载有 NAS 时,网络设置必须和 NAS 保持在同一个 VPC 内;否则无法正常挂载 NAS 。
SGE 集群只支持 VPC 网络。
3.5. 设置环境变量
根据业务需要进行环境变量配置操作
3.6. 提交创建操作
设置完成后提交集群创建即可。提交成功后可以看到集群处于初始化状态。
4. SGE 集群查看
在集群列表页面,点击 “查看” 可以进入 SGE 集群的详细信息页面
4.1. 集群状态显示
4.2. 集群挂载显示
4.3. 集群实例组显示
展示各个组内实例的类型、个数以及镜像信息。
SGE 集群支持按组做扩容或者缩容操作
支持按组展开组内实例列表信息,查看实例在 VPC 内的 IP以及登录密码信息;
4.4. 集群实例列表显示
该页面显示实例ID、名称、hostname 以及机器IP 登录密码等信息。
密码信息获取关闭密码隐藏功能方可获取。
支持采用 VNC 登录方式登录到实例节点
4.4. 集群操作日志显示
显示集群的历史操作信息
5. SGE 集群扩容缩容
在 BatchCompute 控制台,找到指定的 SGE 集群。进入到集群详细信息标签页,在对应的实例组中直接修改期望的实例个数,点击“修改”即可。
Master 组不支持进行扩容或者缩容操作
6. SGE 集群删除
在 BatchCompute 控制台,找到指定的 SGE 集群。进入到集群详细信息标签页,点击“删除”按钮,即可删除对应的集群。
7. 登录 SGE Master 节点
在 BatchCompute 控制台,找到指定的 SGE 集群。进入到详细信息标签页,在对应的实例组 “sgeMasterGroup”中查看实例列表信息,可以获取 Master 节点的公网 IP 以及登录密码信息。
使用 ssh 命令登录到 Master 节点,务必使用 root 用户。
ssh root@<外网IP>
进入Master 节点后,通过 SGE 相关命令对集群进行配置提交作业操作。
集群启动需要一定时间,进入 Master 后执行 SGE 命令出现无法执行,请稍等片刻后重试即可。