常见问题

本文汇总了使用E-HPC时的常见问题。

为什么某些地域无法创建E-HPC集群?

在E-HPC支持的地域和可用区下,不能创建E-HPC集群。可能原因如下:

  • 该地域不支持创建NAS,或NAS文件系统的库存不足,E-HPC集群无法挂载共享存储。

  • 该地域和可用区没有符合E-HPC集群计算节点配置的ECS规格,或ECS规格的库存不足。

建议您选择其它地域创建集群。

可以使用ECS管理控制台对E-HPC集群节点进行操作吗?

不可以。

E-HPC集群节点是基于ECS实例组建,但E-HPC控制台提供了额外的部署流程,包括且不限于以下流程:

  • E-HPC帮助您按节点配比和指定实例规格配置集群节点,为各类节点批量创建ECS实例。

  • E-HPC创建各个节点对应的ECS实例后,会进一步部署管控系统。

  • E-HPC通过管控系统为您在ECS实例上预装选定的软件及其依赖的软件包。

  • E-HPC在管控节点上配置作业调度器。

以上流程都依赖于E-HPC服务部署。若您使用ECS管理控制台对节点进行操作,则可能会导致集群或部分节点状态异常,或集群相关资源不可使用等问题。因此不允许使用ECS管理控制台对E-HPC集群节点进行操作。

E-HPC的节点实例如何与ECS实例进行内网通信?

只要您的E-HPC集群节点实例和您自行购买的ECS实例在同一个VPC内,就可以进行内网通信。

为什么无法通过SSH登录集群?

使用Workbench或其他SSH客户端无法登录集群的原因较多,请您根据实际情况,通过相应的排查方法,排查并解决无法远程登录集群的问题。
  1. 检查用户名密码是否正确。

  2. 检查客户端本地网络或运营商网络是否异常。

  3. 检查登录节点所在的安全组规则,是否放行对相应端口(例如SSH协议默认的22端口)的访问。

  4. 检查节点所在安全组是否允许Workbench服务相关的IP访问节点,安全组规则详情和网络类型有关。具体操作,请参见通过密码或密钥认证登录Linux实例

  5. 使用iptables -nvL --line-number检查登录节点是否开启防火墙或配置了防火墙规则。

如果排查后,依然无法登录集群,您可以选择VNC方式远程连接。更多远程连接问题请参见远程连接FAQ

为什么通过SSH登录NIS域账号服务的集群时比较慢?

问题描述

当您SSH登录节点或者在节点间跳转时非常慢,偶尔会登录失败。并且,手动重启sshd服务会失败,显示Failed to activate service 'org.freedesktop.systemd1': timed out

问题原因

systemd的已知bug,当使用NIS域账号服务时可能会出现该问题。

处理步骤

  1. 使用root账户登录该节点。

  2. 查看/etc/nsswitch.conf文件内容。
    cat /etc/nsswitch.conf
    若passwd、shadow和group中没有[NOTFOUND=return],具体内容如下所示,请继续执行以下步骤。
    passwd:     files sss nis
    shadow:     files sss nis
    group:      files sss nis
  3. (可选)升级glibc。

    yum update glibc
  4. 更新nsswitch配置文件。

    1. 打开nsswitch.conf文件。

      vim /etc/nsswitch.conf
    2. 修改nsswitch.conf文件中如下内容并保存。

      passwd:      files sss nis [NOTFOUND=return]
      shadow:     files sss nis [NOTFOUND=return]
      group:        files sss nis [NOTFOUND=return]

为什么Slurm集群自动伸缩策略增加节点会失败?

使用Slurm调度器的集群默认有8个dummynode,假设当前集群拥有5个计算节点,那么您提交的单个Slurm作业最多可以使用13个节点。如果希望使用更多节点运行单个作业,需要手动扩容计算节点,或增加dummynode的数量。增加dummynode数量的步骤如下:
  1. 以root用户登录集群。

    具体操作,请参见登录集群

  2. 在/opt/slurm/<slurm_version>/nodes目录中新增dummynodexxx文件。

    假设您的作业需要18个节点,由于集群默认有8个dummynode,则需要新增10个dummynode,例如dummyNode8~dummyNode17。

    说明

    <slurm_version>为您集群中Slurm调度器版本。

  3. 在/opt/slurm/<slurm_version>/etc/slurm.conf文件中,找到PartitionName行,新增dummynode信息。

    新增的dummynode信息如下所示:

    PartitionName=comp Nodes=dummynode0,dummynode1,dummynode2,dummynode3,dummynode4,dummynode5,dummynode6,dummynode7,dummynode8,dummynode9,dummynode10,dummynode11,dummynode12,dummynode13,dummynode14,dummynode15,dummynode16,dummynode17,compute000 Default=YES MaxTime=INFINITE State=UP

如何进行实名认证以购买中国内地地域云产品服务?

如果您需要购买和使用中国内地地域的云产品服务,例如存量、新购、续费,必须进行实名认证。您进行购买相关操作时,如果选择了中国内地的地域,系统将检查您的实名认证信息。若未完成实名认证,购买流程将报错并要求先进行实名认证。具体操作,请参见企业实名认证和个体工商户认证个人实名认证

如何配置NAS远程挂载目录?

如果您在创建集群时需要指定NAS的挂载点和远程目录。假如您的集群配置信息如下:

ClusterId=ehpc-mrZSoWf****      # E-HPC集群ID
VolumeMountpoint=045324a6dd-m****.cn-hangzhou.nas.aliyuncs.com # NAS挂载点
RemotePath=/          # 远程目录

在新创建的集群的节点上(比如计算节点),默认的挂载NAS逻辑如下:

说明

您可以根据业务需要,自定义挂载的NAS远程目录。自定义挂载远程目录时,请提前创建相应的挂载点和远程目录。

  1. 根据集群名称,在远程目录下创建二级,三级目录。

    /ehpc-mrZSoWf****/opt
    /ehpc-mrZSoWf****/home
  2. 创建集群时或创建集群后,根据业务需求,配置远程挂载目录。

    不同目录会做如下挂载,具体操作,请参见使用向导创建集群管理存储资源

    /     #挂载到 /ehpcdata
    /ehpc-mrZSoWf****/home    #挂载到/home
    /ehpc-mrZSoWf****/opt    #挂载到/opt

最多可以创建多少个集群?

一个地域下最多可以创建三个集群,如需提高额度,请提交工单

最多可以创建多少个节点?

一个集群内最多可以创建500个节点,一次最多可以扩容500个计算节点。如需提高额度,请提交工单

使用集群时,为什么不能选择自定义镜像?

创建集群、扩容集群或配置自动伸缩策略时,无法选择自定义镜像,可能有以下原因:

  • 您的阿里云账号在当前地域下没有自定义镜像,关于如何创建自定义镜像,请参见自定义镜像概述

  • 自定义镜像操作系统为E-HPC不支持的操作系统,E-HPC支持的操作系统如下表所示。

    操作系统

    操作系统版本

    CentOS

    • CentOS_6.9_64

    • CentOS_7.2_64

    • CentOS_7.3_64

    • CentOS_7.4_64

    • CentOS_7.5_64

    • CentOS_7.6_64

    • CentOS_8.0_6

    Windows Server

    • Windows Server 2019 Data Center Edition 64bit Chinese Edition

    • Windows Server 2019 Data Center Edition 64bit English Edition

    • Windows Server 2016 Data Center Edition 64bit Chinese Edition

    • Windows Server 2016 Data Center Edition 64bit English Edition

    • Windows Server 2012 R2 Data Center Edition 64bit Chinese Edition

    • Windows Server 2012 R2 Data Center Edition 64bit English Edition

    • Windows Server 2008 R2 Enterprise 64bit Chinese Edition

    • Windows Server 2008 R2 Enterprise 64bit English Edition

  • E-HPC仅支持基于阿里云官方镜像创建的自定义镜像。

  • 配置自动伸缩策略时,自动伸缩全局配置中镜像和队列镜像应保持一致。

为什么使用自定义镜像扩容或新建集群会失败?

扩容或新建集群时,可以选择自定义镜像,但可能会出现扩容或新建失败。请注意以下限制:

  • 自定义镜像中不能修改操作系统的yum源配置。

  • 自定义镜像的挂载路径不能有/home和/opt目录,并且/home和/opt目录不能作为软链接目标。

  • 如果自定义镜像内的/etc/fstab文件中,存在文件系统(如nfs)的挂载信息,那么需要确保扩容或新建的集群能够访问该文件系统,例如集群与文件系统在同一VPC内。否则,您需要删除/etc/fstab文件中挂载文件系统的相关内容,再进行扩容或新建集群的操作。

  • 自定义镜像中必须保留账户群组GID为1000的群组。

  • 扩容或新建集群所指定的系统盘大小必须大于等于自定义镜像大小。

什么是角色授权?

弹性高性能计算服务关联角色(AliyunServiceRoleForEHPC)是访问控制提供的一种服务关联角色,用于授权E-HPC访问关联云资源。通过AliyunServiceRoleForEHPC,E-HPC可以获得云服务器ECS、专有网络VPC、文件存储NAS的访问权限。

如果您的账号没有完成弹性高性能计算服务关联角色的授权,需要完成角色授权。更多操作,请参见管理服务关联角色

为什么RAM用户无法登录控制台查看E-HPC信息?

如果RAM用户没有授权AliyunEHPCReadOnlyAccess权限,会一直提示前往RAM进行授权,需添加AliyunEHPCReadOnlyAccess权限才能查看E-HPC信息。

如果需要创建集群、创建用户、创建作业等操作,需添加AliyunEHPCFullAccess和AliyunNASFullAccess权限。具体操作,请参见为RAM用户授权

阿里云首页 弹性高性能计算E-HPC 相关技术圈