常见问题
本文汇总了使用E-HPC时的常见问题。
集群相关
NAS相关
配额限制
镜像相关
权限相关
为什么某些地域无法创建E-HPC集群?
在E-HPC支持的地域和可用区下,不能创建E-HPC集群。可能原因如下:
该地域不支持创建NAS,或NAS文件系统的库存不足,E-HPC集群无法挂载共享存储。
该地域和可用区没有符合E-HPC集群计算节点配置的ECS规格,或ECS规格的库存不足。
建议您选择其它地域创建集群。
可以使用ECS管理控制台对E-HPC集群节点进行操作吗?
不可以。
E-HPC集群节点是基于ECS实例组建,但E-HPC控制台提供了额外的部署流程,包括且不限于以下流程:
E-HPC帮助您按节点配比和指定实例规格配置集群节点,为各类节点批量创建ECS实例。
E-HPC创建各个节点对应的ECS实例后,会进一步部署管控系统。
E-HPC通过管控系统为您在ECS实例上预装选定的软件及其依赖的软件包。
E-HPC在管控节点上配置作业调度器。
以上流程都依赖于E-HPC服务部署。若您使用ECS管理控制台对节点进行操作,则可能会导致集群或部分节点状态异常,或集群相关资源不可使用等问题。因此不允许使用ECS管理控制台对E-HPC集群节点进行操作。
E-HPC的节点实例如何与ECS实例进行内网通信?
只要您的E-HPC集群节点实例和您自行购买的ECS实例在同一个VPC内,就可以进行内网通信。
为什么无法通过SSH登录集群?
检查用户名密码是否正确。
检查客户端本地网络或运营商网络是否异常。
检查登录节点所在的安全组规则,是否放行对相应端口(例如SSH协议默认的22端口)的访问。
检查节点所在安全组是否允许Workbench服务相关的IP访问节点,安全组规则详情和网络类型有关。具体操作,请参见通过密码或密钥认证登录Linux实例。
使用
iptables -nvL --line-number
检查登录节点是否开启防火墙或配置了防火墙规则。
如果排查后,依然无法登录集群,您可以选择VNC方式远程连接。更多远程连接问题请参见远程连接FAQ。
为什么通过SSH登录NIS域账号服务的集群时比较慢?
问题描述
当您SSH登录节点或者在节点间跳转时非常慢,偶尔会登录失败。并且,手动重启sshd服务会失败,显示Failed to activate service 'org.freedesktop.systemd1': timed out
。
问题原因
systemd的已知bug,当使用NIS域账号服务时可能会出现该问题。
处理步骤
使用root账户登录该节点。
- 查看/etc/nsswitch.conf文件内容。
cat /etc/nsswitch.conf
若passwd、shadow和group中没有[NOTFOUND=return],具体内容如下所示,请继续执行以下步骤。passwd: files sss nis shadow: files sss nis group: files sss nis
(可选)升级glibc。
yum update glibc
更新nsswitch配置文件。
打开nsswitch.conf文件。
vim /etc/nsswitch.conf
修改nsswitch.conf文件中如下内容并保存。
passwd: files sss nis [NOTFOUND=return] shadow: files sss nis [NOTFOUND=return] group: files sss nis [NOTFOUND=return]
为什么Slurm集群自动伸缩策略增加节点会失败?
以root用户登录集群。
具体操作,请参见登录集群。
在/opt/slurm/<slurm_version>/nodes目录中新增dummynodexxx文件。
假设您的作业需要18个节点,由于集群默认有8个dummynode,则需要新增10个dummynode,例如dummyNode8~dummyNode17。
说明<slurm_version>为您集群中Slurm调度器版本。
在/opt/slurm/<slurm_version>/etc/slurm.conf文件中,找到PartitionName行,新增dummynode信息。
新增的dummynode信息如下所示:
PartitionName=comp Nodes=dummynode0,dummynode1,dummynode2,dummynode3,dummynode4,dummynode5,dummynode6,dummynode7,dummynode8,dummynode9,dummynode10,dummynode11,dummynode12,dummynode13,dummynode14,dummynode15,dummynode16,dummynode17,compute000 Default=YES MaxTime=INFINITE State=UP
如何进行实名认证以购买中国内地地域云产品服务?
如果您需要购买和使用中国内地地域的云产品服务,例如存量、新购、续费,必须进行实名认证。您进行购买相关操作时,如果选择了中国内地的地域,系统将检查您的实名认证信息。若未完成实名认证,购买流程将报错并要求先进行实名认证。具体操作,请参见企业实名认证和个体工商户认证个人实名认证。
如何配置NAS远程挂载目录?
如果您在创建集群时需要指定NAS的挂载点和远程目录。假如您的集群配置信息如下:
ClusterId=ehpc-mrZSoWf**** # E-HPC集群ID
VolumeMountpoint=045324a6dd-m****.cn-hangzhou.nas.aliyuncs.com # NAS挂载点
RemotePath=/ # 远程目录
在新创建的集群的节点上(比如计算节点),默认的挂载NAS逻辑如下:
您可以根据业务需要,自定义挂载的NAS远程目录。自定义挂载远程目录时,请提前创建相应的挂载点和远程目录。
最多可以创建多少个集群?
一个地域下最多可以创建三个集群,如需提高额度,请提交工单。
最多可以创建多少个节点?
一个集群内最多可以创建500个节点,一次最多可以扩容500个计算节点。如需提高额度,请提交工单。
使用集群时,为什么不能选择自定义镜像?
创建集群、扩容集群或配置自动伸缩策略时,无法选择自定义镜像,可能有以下原因:
您的阿里云账号在当前地域下没有自定义镜像,关于如何创建自定义镜像,请参见自定义镜像概述。
自定义镜像操作系统为E-HPC不支持的操作系统,E-HPC支持的操作系统如下表所示。
操作系统
操作系统版本
CentOS
CentOS_6.9_64
CentOS_7.2_64
CentOS_7.3_64
CentOS_7.4_64
CentOS_7.5_64
CentOS_7.6_64
CentOS_8.0_6
Windows Server
Windows Server 2019 Data Center Edition 64bit Chinese Edition
Windows Server 2019 Data Center Edition 64bit English Edition
Windows Server 2016 Data Center Edition 64bit Chinese Edition
Windows Server 2016 Data Center Edition 64bit English Edition
Windows Server 2012 R2 Data Center Edition 64bit Chinese Edition
Windows Server 2012 R2 Data Center Edition 64bit English Edition
Windows Server 2008 R2 Enterprise 64bit Chinese Edition
Windows Server 2008 R2 Enterprise 64bit English Edition
E-HPC仅支持基于阿里云官方镜像创建的自定义镜像。
配置自动伸缩策略时,自动伸缩全局配置中镜像和队列镜像应保持一致。
为什么使用自定义镜像扩容或新建集群会失败?
扩容或新建集群时,可以选择自定义镜像,但可能会出现扩容或新建失败。请注意以下限制:
自定义镜像中不能修改操作系统的yum源配置。
自定义镜像的挂载路径不能有/home和/opt目录,并且/home和/opt目录不能作为软链接目标。
如果自定义镜像内的/etc/fstab文件中,存在文件系统(如nfs)的挂载信息,那么需要确保扩容或新建的集群能够访问该文件系统,例如集群与文件系统在同一VPC内。否则,您需要删除/etc/fstab文件中挂载文件系统的相关内容,再进行扩容或新建集群的操作。
自定义镜像中必须保留账户群组GID为1000的群组。
扩容或新建集群所指定的系统盘大小必须大于等于自定义镜像大小。
什么是角色授权?
弹性高性能计算服务关联角色(AliyunServiceRoleForEHPC)是访问控制提供的一种服务关联角色,用于授权E-HPC访问关联云资源。通过AliyunServiceRoleForEHPC,E-HPC可以获得云服务器ECS、专有网络VPC、文件存储NAS的访问权限。
如果您的账号没有完成弹性高性能计算服务关联角色的授权,需要完成角色授权。更多操作,请参见管理服务关联角色。
为什么RAM用户无法登录控制台查看E-HPC信息?
如果RAM用户没有授权AliyunEHPCReadOnlyAccess权限,会一直提示前往RAM进行授权,需添加AliyunEHPCReadOnlyAccess权限才能查看E-HPC信息。
如果需要创建集群、创建用户、创建作业等操作,需添加AliyunEHPCFullAccess和AliyunNASFullAccess权限。具体操作,请参见为RAM用户授权。