常见问题

本文汇总了使用E-HPC时的常见问题。

集群相关

为什么某些地域无法创建E-HPC集群?

如果您在E-HPC支持的地域和可用区下,不能创建E-HPC集群。可能是由于该地域不支持创建集群所需的相关资源,或者资源库存不足。例如:

  • 该地域不支持创建NAS文件系统,或者NAS文件系统的库存不足,导致E-HPC集群无法挂载共享存储。

  • 该地域和可用区没有符合E-HPC集群节点配置的ECS规格,或者ECS规格的库存不足。

建议您选择其他地域创建E-HPC集群。

可以使用ECS管理控制台对E-HPC集群的节点进行操作吗?

不可以。

E-HPC集群节点是基于ECS实例组建,但E-HPC控制台提供了额外的部署流程,包括且不限于以下流程:

  • E-HPC帮助您按节点配比和指定实例规格配置集群节点,为各类节点批量创建ECS实例。

  • E-HPC创建各个节点对应的ECS实例后,会进一步部署管控系统。

  • E-HPC通过管控系统为您在ECS实例上预装选定的软件及其依赖的软件包。

  • E-HPC在管控节点上配置作业调度器。

以上流程都依赖于E-HPC服务部署。若您使用ECS管理控制台对节点进行操作,则可能会导致集群或部分节点状态异常,或集群相关资源不可使用等问题。因此不允许使用ECS管理控制台对E-HPC集群的节点进行操作。

E-HPC的节点实例如何与ECS实例进行私网通信?

根据您的E-HPC集群节点实例和您自行购买的ECS实例是否处于同一VPC,私网通信的配置如下:

  • 处于同一个VPC内,可以直接进行私网通信。

  • 处于不同VPC内,需要打通网络后才能进行私网通信。您可以通过云企业网CEN、VPC对等实现VPC之间私网互通。

为什么无法通过SSH登录集群?

使用Workbench或其他SSH客户端无法登录集群的原因较多,请您根据实际情况,通过相应的排查方法,排查并解决无法远程登录集群的问题。

  1. 检查用户名密码是否正确。

  2. 检查客户端本地网络或运营商网络是否异常。

  3. 检查登录节点所在的安全组规则,是否放行对相应端口(例如SSH协议默认的22端口)的访问。

  4. 检查节点所在安全组是否允许Workbench服务相关的IP访问节点,安全组规则详情和网络类型有关。具体操作,请参见通过密码或密钥认证登录Linux实例

  5. 使用iptables -nvL --line-number检查登录节点是否开启防火墙或配置了防火墙规则。

如果排查后,依然无法登录集群,您可以选择VNC方式远程连接。更多远程连接问题请参见远程连接FAQ

为什么通过SSH登录NIS域账号服务的集群时比较慢?

问题描述

  • SSH登录节点或者在节点间跳转时非常慢,偶尔会登录失败。

  • 手动重启sshd服务失败,显示Failed to activate service 'org.freedesktop.systemd1': timed out

问题原因

systemd的已知bug,使用NIS域账号服务时可能会出现该问题。

处理步骤

  1. 使用root用户登录节点。

  2. 查看/etc/nsswitch.conf文件内容。

    cat /etc/nsswitch.conf

    若passwd、shadow和group中没有[NOTFOUND=return],请继续执行以下步骤。示例如下:

    passwd:     files sss nis
    shadow:     files sss nis
    group:      files sss nis
  3. (可选)升级glibc。

    yum update glibc
  4. 更新nsswitch配置文件。

    1. 打开nsswitch.conf文件。

      vim /etc/nsswitch.conf
    2. 修改nsswitch.conf文件中如下内容并保存。

      passwd:      files sss nis [NOTFOUND=return]
      shadow:      files sss nis [NOTFOUND=return]
      group:       files sss nis [NOTFOUND=return]

集群自动伸缩过程中管控节点可以停机吗?

由于自动伸缩服务依赖于调度器服务和域账号服务运行正常,因此在集群自动伸缩过程中,管控节点需要一直保持运行中。如果在开启自动伸缩后停止管控节点,可能会导致自动伸缩决策失误从而出现一些异常问题。

说明

如果管控节点需要关机或者重启,请在计算节点没有作业运行,并且自动伸缩已经释放了空闲节点后再进行操作。此时,建议您先关闭自动伸缩,在管控节点重新启动后,再开启自动伸缩。

为什么Slurm集群配置自动伸缩策略后增加节点会失败?

使用Slurm调度器的集群默认有8个DummyNode,假设当前集群拥有5个计算节点,那么您提交的单个Slurm作业最多可以使用13个节点。如果希望使用更多节点运行单个作业,需要手动扩容计算节点,或增加DummyNode的数量。增加DummyNode数量的步骤如下:

  1. 以root用户登录集群。具体操作,请参见登录集群

  2. /opt/slurm/<slurm_version>/nodes目录下新增DummyNode文件。

    假设您的作业需要18个节点,由于集群默认有8个DummyNode,则需要新增10个DummyNode,即增加dummynode8~dummynode17共10个文件,文件内容可以拷贝dummynode0文件的内容。

    说明

    <slurm_version>为您集群中Slurm调度器版本。

  3. 在/opt/slurm/<slurm_version>/etc/slurm.conf文件中,找到PartitionName行,新增DummyNode信息。

    新增的DummyNode信息如下所示:

    PartitionName=comp Nodes=dummynode0,dummynode1,dummynode2,dummynode3,dummynode4,dummynode5,dummynode6,dummynode7,dummynode8,dummynode9,dummynode10,dummynode11,dummynode12,dummynode13,dummynode14,dummynode15,dummynode16,dummynode17,compute000 Default=YES MaxTime=INFINITE State=UP

创建Slurm集群时,调度器选择哪个版本?

创建E-HPC集群时,在2.软件配置页面您可以选择调度器类型。目前E-HPC支持多个版本的Slurm调度器。如果您的业务对调度器版本没有特殊要求,建议选择最新的Slurm调度器版本来创建集群。当前E-HPC支持的Slurm调度器最新版本为slurm22。

如何进行实名认证以购买中国内地地域云产品服务?

如果您需要购买和使用中国内地地域的云产品服务,例如存量、新购、续费,必须进行实名认证。您进行购买相关操作时,如果选择了中国内地的地域,系统将检查您的实名认证信息。若未完成实名认证,购买流程将报错并要求先进行实名认证。具体操作,请参见国际站账号实名登记常见问题企业实名认证和个体工商户认证个人实名认证

集群内计算节点状态显示为“异常”,无法正常调度任务怎么办?

问题描述

集群内计算节点状态显示为“异常”,且无法正常调度任务。如下图所示:

image

可能原因

该问题可能是由于您开启了管理节点上的系统防火墙,导致计算节点上的ypbind服务无法正常工作,从而引发系统无法正常调度任务的问题。

解决方案

您需要关闭管理节点上的系统防火墙。

  1. 以root用户登录管理节点。

  2. 执行以下命令,停止firewalld服务。

    systemctl stop firewalld
  3. 执行以下命令,禁止firewalld服务开机启动。

    systemctl disable firewalld
  4. 执行以下命令,检查管理节点的firewalld服务状态,确保服务已停止并且不会在启动时再次启动。

    systemctl status firewalld

镜像相关

支持哪些类型的镜像?

支持以下几类镜像:

  • 公共镜像:阿里云官方镜像。

  • 自定义镜像:您使用ECS实例或者快照创建的镜像,或者从本地导入的镜像。

  • 共享镜像:其他阿里云账号共享给您的镜像。

  • 镜像市场:第三方服务商ISV(Independent Software Vendor)通过阿里云云市场授权提供的镜像。

  • 社区镜像:镜像提供者通过阿里云社区镜像平台发布的镜像。

  • 计算巢部署物:第三方服务商ISV通过阿里云计算巢发布的镜像。

重要

可以选择的镜像由选择的地域可用区、所登录账号本身是否有相关镜像资源,以及选择的节点实例规格决定,以界面显示为准。

为什么不能选择自定义镜像?

创建集群、扩容集群或配置自动伸缩策略时,如果无法选择自定义镜像,可能有以下原因:

  • 您的阿里云账号在当前地域下没有自定义镜像,关于如何创建自定义镜像,请参见自定义镜像概述

  • 自定义镜像操作系统为E-HPC不支持的操作系统。

  • 当前选择的节点实例规格不支持该自定义镜像。

  • 配置自动伸缩策略时,自动伸缩全局配置中镜像和队列镜像应保持一致。

为什么使用自定义镜像创建或扩容集群会失败?

创建或扩容集群时,可以选择自定义镜像,但可能会出现创建或扩容失败的情况。操作前,请注意以下限制:

  • 自定义镜像中不能修改操作系统的yum源配置。

  • 自定义镜像的挂载路径不能有/home/opt目录,并且/home/opt目录不能作为软链接目标。

  • 如果自定义镜像内的/etc/fstab文件中,存在文件系统(如nfs)的挂载信息,那么需要确保扩容或创建的集群能够访问该文件系统,例如集群与文件系统在同一VPC内。否则,您需要删除/etc/fstab文件中挂载文件系统的相关内容,再进行扩容或创建集群的操作。

  • 自定义镜像中必须保留账户群组GID为1000的群组。

  • 扩容或创建集群所指定的系统盘大小必须大于等于自定义镜像大小。

是否支持导入的自定义镜像?

E-HPC仅支持使用导入的CentOS镜像。关于如何导入镜像,请参见导入镜像流程

导入镜像时,请务必选中导入后执行检测,否则可能无法在E-HPC控制台识别该镜像。

导入镜像..png

软件相关

如何在E-HPC集群中手动安装业务软件?

E-HPC集群使用NAS实现计算节点间的数据共享,因此自行手动安装业务软件有以下两种方案:

  • 安装在/opt目录,该方案下所有集群用户可以访问并使用业务软件。

  • 安装在集群用户的home目录,一般情况下仅该集群用户可以访问并使用。

重要

某些软件需要在计算节点安装驱动或者运行环境等,例如GPU驱动、YUM安装的包等。在计算节点独立安装软件后,您可以使用该节点制作的自定义镜像来扩容节点,实现自动化安装。

存储相关

如何配置NAS远程挂载目录?

创建集群时需要指定NAS的挂载点和远程目录,假如您的集群配置信息如下:

ClusterId=ehpc-mrZSoWf****                                      # E-HPC集群ID
VolumeMountpoint=045324****-m****.cn-hangzhou.nas.aliyuncs.com  # NAS挂载点
RemotePath=/                                                    # NAS远程目录

在新创建的集群的节点上(比如计算节点),默认的挂载NAS逻辑如下:

说明

您可以根据业务需要,自定义挂载的NAS远程目录。自定义挂载远程目录时,请提前创建相应的挂载点和远程目录。

  1. 根据集群名称,在远程目录下创建二级,三级目录。

    /ehpc-mrZSoWf****/opt
    /ehpc-mrZSoWf****/home
  2. 创建集群时或创建集群后,根据业务需求,配置远程挂载目录。

    不同目录会做如下挂载。具体操作,请参见使用向导创建集群管理共享存储

    /                         #挂载到 /ehpcdata
    /ehpc-mrZSoWf****/home    #挂载到/home
    /ehpc-mrZSoWf****/opt     #挂载到/opt

配额相关

最多可以创建多少个集群?

一个地域下最多可以创建3个集群,如需提高额度,请提交工单

最多可以创建多少个节点?

一个集群内最多可以创建500个节点,一次最多可以扩容500个计算节点。如需提高额度,请提交工单

权限相关

什么是角色授权?

弹性高性能计算服务关联角色(AliyunServiceRoleForEHPC)是访问控制提供的一种服务关联角色,用于授权E-HPC访问关联云资源。通过AliyunServiceRoleForEHPC,E-HPC可以获得云服务器ECS、专有网络VPC、文件存储NAS等阿里云产品的访问权限。

如果您的账号没有完成弹性高性能计算服务关联角色的授权,需要完成角色授权。更多操作,请参见E-HPC服务关联角色

为什么RAM用户无法登录控制台查看E-HPC信息?

如果RAM用户没有授权AliyunEHPCReadOnlyAccess权限,会一直提示前往RAM进行授权,需添加AliyunEHPCReadOnlyAccess权限才能查看E-HPC信息。

如果需要创建集群、创建用户、创建作业等操作,需添加AliyunEHPCFullAccess和AliyunNASFullAccess权限。具体操作,请参见为RAM用户授权