常见问题

本文汇总了使用E-HPC时的常见问题。

集群相关

为什么某些地域无法创建E-HPC集群?

如果您在E-HPC支持的地域和可用区下,不能创建E-HPC集群。可能是由于该地域不支持创建集群所需的相关资源,或者资源库存不足。例如:

  • 该地域不支持创建NAS文件系统,或者NAS文件系统的库存不足,导致E-HPC集群无法挂载共享存储。

  • 该地域和可用区没有符合E-HPC集群节点配置的ECS规格,或者ECS规格的库存不足。

建议您选择其他地域创建E-HPC集群。

可以使用ECS管理控制台对E-HPC集群的节点进行操作吗?

不可以。

E-HPC集群节点是基于ECS实例组建,但E-HPC控制台提供了额外的部署流程,包括且不限于以下流程:

  • E-HPC帮助您按节点配比和指定实例规格配置集群节点,为各类节点批量创建ECS实例。

  • E-HPC创建各个节点对应的ECS实例后,会进一步部署管控系统。

  • E-HPC通过管控系统为您在ECS实例上预装选定的软件及其依赖的软件包。

  • E-HPC在管控节点上配置作业调度器。

以上流程都依赖于E-HPC服务部署。若您使用ECS管理控制台对节点进行操作,则可能会导致集群或部分节点状态异常,或集群相关资源不可使用等问题。因此不允许使用ECS管理控制台对E-HPC集群的节点进行操作。

E-HPC的节点实例如何与ECS实例进行私网通信?

根据您的E-HPC集群节点实例和您自行购买的ECS实例是否处于同一VPC,私网通信的配置如下:

  • 处于同一个VPC内,可以直接进行私网通信。

  • 处于不同VPC内,需要打通网络后才能进行私网通信。您可以通过云企业网CEN、VPC对等实现VPC之间私网互通。

为什么无法通过SSH登录集群?

使用Workbench或其他SSH客户端无法登录集群的原因较多,请您根据实际情况,通过相应的排查方法,排查并解决无法远程登录集群的问题。

  1. 检查用户名密码是否正确。

  2. 检查客户端本地网络或运营商网络是否异常。

  3. 检查登录节点所在的安全组规则,是否放行对相应端口(例如SSH协议默认的22端口)的访问。

  4. 检查节点所在安全组是否允许Workbench服务相关的IP访问节点,安全组规则详情和网络类型有关。具体操作,请参见使用Workbench终端连接登录Linux实例(SSH)

  5. 使用iptables -nvL --line-number检查登录节点是否开启防火墙或配置了防火墙规则。

如果排查后,依然无法登录集群,您可以选择VNC方式远程连接。更多远程连接问题请参见远程连接FAQ

为什么通过SSH登录NIS域账号服务的集群时比较慢?

问题描述

  • SSH登录节点或者在节点间跳转时非常慢,偶尔会登录失败。

  • 手动重启sshd服务失败,显示Failed to activate service 'org.freedesktop.systemd1': timed out

问题原因

systemd的已知bug,使用NIS域账号服务时可能会出现该问题。

处理步骤

  1. 使用root用户登录节点。

  2. 查看/etc/nsswitch.conf文件内容。

    cat /etc/nsswitch.conf

    passwd、shadowgroup中没有[NOTFOUND=return],请继续执行以下步骤。示例如下:

    passwd:     files sss nis
    shadow:     files sss nis
    group:      files sss nis
  3. (可选)升级glibc。

    yum update glibc
  4. 更新nsswitch配置文件。

    1. 打开nsswitch.conf文件。

      vim /etc/nsswitch.conf
    2. 修改nsswitch.conf文件中如下内容并保存。

      passwd:      files sss nis [NOTFOUND=return]
      shadow:      files sss nis [NOTFOUND=return]
      group:       files sss nis [NOTFOUND=return]

如何进行实名认证以购买中国内地地域云产品服务?

如果您需要购买和使用中国内地地域的云产品服务,例如存量、新购、续费,必须进行实名认证。您进行购买相关操作时,如果选择了中国内地的地域,系统将检查您的实名认证信息。若未完成实名认证,购买流程将报错并要求先进行实名认证。具体操作,请参见哪些用户需要进行账号认证?企业实名认证个人实名认证

集群内计算节点状态显示为“异常”,无法正常调度任务怎么办?

问题描述

集群内计算节点状态显示为“异常”,且无法正常调度任务。如下图所示:

image

可能原因

该问题可能是由于您开启了管理节点上的系统防火墙,导致计算节点上的ypbind服务无法正常工作,从而引发系统无法正常调度任务的问题。

解决方案

您需要关闭管理节点上的系统防火墙。

  1. root用户登录管理节点。

  2. 执行以下命令,停止firewalld服务。

    systemctl stop firewalld
  3. 执行以下命令,禁止firewalld服务开机启动。

    systemctl disable firewalld
  4. 执行以下命令,检查管理节点的firewalld服务状态,确保服务已停止并且不会在启动时再次启动。

    systemctl status firewalld

镜像相关

为什么集群的自定义服务节点镜像是CentOS 7.6?

在创建E-HPC集群时,自定义服务节点的系统默认是CentOS7.6,您可以根据需要选择合适的镜像。对于已创建的E-HPC集群,您可以通过安装和卸载管理集群自定义服务来更换镜像。

  1. 访问E-HPC控制台找到需要修改的集群,单击集群名称进入集群详情页。

  2. 在集群详情页,单击自定义服务,找到需要修改的节点,在右侧单击删除image

  3. 单击添加自定义组件,选择Login(版本1.0),在ECS实例单击编辑实例规格image

  4. 选择完成实例规格后单击确定,完成添加自定义组件。

支持哪些类型的镜像?

镜像提供集群节点(即ECS实例)所需的信息,包括必要的操作系统和相关配置数据等。E-HPC支持公共镜像自定义镜像社区镜像。更多信息,请参见镜像概述

重要
  • 公共镜像自定义镜像目前支持部分 Alibaba Cloud Linux、CentOS 和 Ubuntu 操作系统镜像,但受地域可用区、账号权限和实例规格的限制,具体以界面显示为准。

    如需了解更多支持的镜像内容,可通过调用OpenAPI 查询可用镜像列表 查看结果。

    操作系统类型

    支持版本

    Alibaba Cloud Linux

    Alibaba Cloud Linux 3 Pro

    Alibaba Cloud Linux 3

    Alibaba Cloud Linux 2

    CentOS

    CentOS 7.2–7.9

    Ubuntu

    Ubuntu 22.04

    Ubuntu 20.04

  • 不同镜像会影响集群的调度器类型、域账号服务、共享存储和软件支持。

  • 公共镜像:阿里云官方镜像。

  • 自定义镜像:您使用ECS实例或者快照创建的镜像,或者从本地导入的镜像。

  • 社区镜像:镜像提供者通过阿里云社区镜像平台发布的镜像。

为什么不能选择自定义镜像?

创建集群、扩容集群或配置自动伸缩策略时,如果无法选择自定义镜像,可能有以下原因:

  • 您的阿里云账号在当前地域下没有自定义镜像,关于如何创建自定义镜像,请参见自定义镜像概述

  • 自定义镜像操作系统为E-HPC不支持的操作系统。

  • 当前选择的节点实例规格不支持该自定义镜像。

  • 配置自动伸缩策略时,自动伸缩全局配置中镜像和队列镜像应保持一致。

为什么使用自定义镜像创建或扩容集群会失败?

创建或扩容集群时,可以选择自定义镜像,但可能会出现创建或扩容失败的情况。操作前,请注意以下限制:

  • 自定义镜像中不能修改操作系统的yum源配置。

  • 自定义镜像的挂载路径不能有/home/opt目录,并且/home/opt目录不能作为软链接目标。

  • 如果自定义镜像内的/etc/fstab文件中,存在文件系统(如nfs)的挂载信息,那么需要确保扩容或创建的集群能够访问该文件系统,例如集群与文件系统在同一VPC内。否则,您需要删除/etc/fstab文件中挂载文件系统的相关内容,再进行扩容或创建集群的操作。

  • 自定义镜像中必须保留账户群组GID1000的群组。

  • 扩容或创建集群所指定的系统盘大小必须大于等于自定义镜像大小。

是否支持导入的自定义镜像?

E-HPC仅支持使用导入的CentOS镜像。关于如何导入镜像,请参见导入镜像流程

导入镜像时,请务必选中导入后执行检测,否则可能无法在E-HPC控制台识别该镜像。

导入镜像..png

软件相关

如何在E-HPC集群中手动安装业务软件?

E-HPC集群使用NAS实现计算节点间的数据共享,因此自行手动安装业务软件有以下两种方案:

  • 安装在/opt目录,该方案下所有集群用户可以访问并使用业务软件。

  • 安装在集群用户的home目录,一般情况下仅该集群用户可以访问并使用。

重要

某些软件需要在计算节点安装驱动或者运行环境等,例如GPU驱动、YUM安装的包等。在计算节点独立安装软件后,您可以使用该节点制作的自定义镜像来扩容节点,实现自动化安装。

自动伸缩节点相关

实例已经释放,但是控制台仍然无法删除节点?

问题描述:在使用Spot实例进行自动伸缩时,若实例到期回收而其上仍有未完成的计算任务,可能会导致调度器无法成功删除该实例,从而引发删除节点失败。image

解决方法:在自动伸缩场景中,节点残留一定时间后会被清理。等调度器状态更新后,节点退出BusyNodes状态从而可以正常删除。

存储相关

如何配置NAS远程挂载目录?

创建集群时需要指定NAS的挂载点和远程目录,假如您的集群配置信息如下:

ClusterId=ehpc-mrZSoWf****                                      # E-HPC集群ID
VolumeMountpoint=045324****-m****.cn-hangzhou.nas.aliyuncs.com  # NAS挂载点
RemotePath=/                                                    # NAS远程目录

在新创建的集群的节点上(比如计算节点),默认的挂载NAS逻辑如下:

说明

您可以根据业务需要,自定义挂载的NAS远程目录。自定义挂载远程目录时,请提前创建相应的挂载点和远程目录。

  1. 根据集群名称,在远程目录下创建二级,三级目录。

    /ehpc-mrZSoWf****/opt
    /ehpc-mrZSoWf****/home
  2. 创建集群时或创建集群后,根据业务需求,配置远程挂载目录。

    不同目录会做如下挂载。具体操作,请参见使用向导创建集群管理共享存储

    /                         #挂载到 /ehpcdata
    /ehpc-mrZSoWf****/home    #挂载到/home
    /ehpc-mrZSoWf****/opt     #挂载到/opt

配额相关

最多可以创建多少个集群?

一个地域下最多可以创建3个集群,如需提高额度,请提交工单

最多可以创建多少个节点?

一个集群内最多可以创建500个节点,一次最多可以扩容500个计算节点。如需提高额度,请提交工单

权限相关

什么是角色授权?

弹性高性能计算服务关联角色(AliyunServiceRoleForEHPC)是访问控制提供的一种服务关联角色,用于授权E-HPC访问关联云资源。通过AliyunServiceRoleForEHPC,E-HPC可以获得云服务器ECS、专有网络VPC、文件存储NAS等阿里云产品的访问权限。

如果您的账号没有完成弹性高性能计算服务关联角色的授权,需要完成角色授权。更多操作,请参见E-HPC服务关联角色

为什么RAM用户无法登录控制台查看E-HPC信息?

如果RAM用户没有授权AliyunEHPCReadOnlyAccess权限,会一直提示前往RAM进行授权,需添加AliyunEHPCReadOnlyAccess权限才能查看E-HPC信息。

如果需要创建集群、创建用户、创建作业等操作,需添加AliyunEHPCFullAccessAliyunNASFullAccess权限。具体操作,请参见RAM用户授权