全部产品

创建混合云集群

您可以通过E-HPC创建HPC混合云集群,利用本地的HPC集群在阿里云扩容计算资源,统一调度云上资源和您的本地资源进行高性能计算。

前提条件

集群的调度结点(头节点),域账号管理节点都在本地,您可以通过以下方式进行本地和云上的节点通信。

  • 搭建好网络连接、VPN、云企业网或者物理专线。更多信息,请参见什么是云企业网申请专线接入什么是VPN网关

  • 提供本地HPC集群调度节点信息:hostname、ip。

  • 提供本地域账号节点信息:hostname、ip、账号域名(domain name)。

关于如何搭建VPN网关和建立连接,请参见建立VPC到本地数据中心的连接。如果本地网关使用strongswan,具体操作,请参见strongSwan配置

注意

本地网关需要允许UDP端口500和4500连入, strongswan对外监听端口是500和4500。本地网关需要允许域账号系统以及HPC集群头结点相关服务监听的端口接入。

环境要求

本地HPC集群管理节点的环境要求如下:

  • 操作系统: Linux CentOS 6.8、6.9 、 7.2、7.3、7.4

  • 调度集群类型:PBSPro 18.1.1、Slurm 17.2.4

  • 账号管理类型:nis 2.31、ldap 2.4

操作步骤

E-HPC支持如下两种方式创建混合云集群

  • 本地集群已经存在,那么本地集群节点不需要做额外的配置。

  • 本地集群还不存在,E-HPC会自动安装配置本地集群调度节点和域账号节点。

  1. 调用CreateHybridCluster创建一个混合云集群,更多信息,请参见CreateHybridCluster

    Nodes:json格式的字符串,内容包含本地集群的调度节点以及账号节点的信息,可以参照以下的例子。

    [
      {"Role":"AccountManager", "HostName":"account", "IpAddress":"...", "AccountType":"nis"},
      {"Role":"ResourceManager", "HostName":"scheduler","IpAddress":"...","SchedulerType":"pbs"}
    ]
  2. 登录弹性高性能计算控制台

  3. 在顶部菜单栏左上角处,选择地域。

  4. 在左侧导航栏,单击集群,查看所创建的集群是否安装中。

  5. 调用GetHybridClusterConfig获取集群配置信息,更多信息,请参见GetHybridClusterConfig

  6. 登录本地集群调度节点和域账号管理节点,执行如下命令:

    echo -e "集群配置信息" > /root/ehpc.conf
  7. 配置E-HPC agent。

    • 账号节点和调度节点为两个节点时:

      1. 登录本地域账号管理节点运行如下命令安装配置 E-HPC agent。

        curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh
        chmod +x deploy_ehpc_agent.sh
        ./deploy_ehpc_agent.sh -r AccountManager -i
        -r: # 指定节点角色
        -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置域账号服务
      2. 登录本地集群调度节点运行如下命令安装配置E-HPC agent。

        # 下载或者从以上域账号节点拷贝部署脚本
        curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh
        chmod +x deploy_ehpc_agent.sh
        ./deploy_ehpc_agent.sh -r ResourceManager -i
        -r: # 指定节点角色
        -i: # 如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务
    • 账号节点和调度节点为同一个节点时:

      1. 登录本地集群节点运行如下命令安装配置E-HPC agent

        curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh
        chmod +x deploy_ehpc_agent.sh
        ./deploy_ehpc_agent.sh -r AccountManager,ResourceManager -i
        -r: #指定节点角色
        -i: #如果本地集群是已经存在的,指定这个选项就会跳过安装配置HPC集群调度服务
      2. 本地管理节点部署之后,通过E-HPC控制台可以查看集群基本信息,集群状态会转变为“运行中”。

      3. 调用AddNodes增加节点。

  8. 管理本地节点

    1. 调用AddLocalNodes增加本地计算节点到E-HPC集群。更多信息,请参见AddLocalNodes

    2. 调用GetHybridClusterConfig获取新增加的节点配置信息。

      注意

      请求参数Node必须设置为本地节点的hostname

    3. 登录本地计算节点运行如下命令安装配置E-HPC agent。

      # 设置节点配置
      echo -e "节点配置信息" > /root/ehpc.conf
      # 下载或者从以上域账号节点拷贝部署脚本
      curl -O http://e-hpc-hangzhou.oss-cn-hangzhou.aliyuncs.com/packages/deploy_ehpc_agent.sh
      chmod +x deploy_ehpc_agent.sh
      ./deploy_ehpc_agent.sh -r ComputeNode -i
      -r: # 指定节点角色
      -i: # 如果本地计算节点已经安装配置好,指定这个选项就会跳过安装配置HPC集群调度相关服务好,指定这个选项就会跳过安装配置HPC集群调度相关服务