您可以使用PAI灵骏智算服务提供的一键诊断功能,检查灵骏节点的网络和硬件状态,基于多种通信库和通信模型进行网络测试。本文为您介绍灵骏的一键诊断功能。
自助诊断
网络诊断
网络诊断功能分为静态配置类检查和动态运行类检查,支持诊断灵骏节点的网络状态并提供可视化的诊断结果。
静态配置类检查为灵骏节点提供静态配置类的诊断,包括系统软件检查、网络检查、GPU检查等。
登录灵骏控制台。
在左侧导航栏,选择一键诊断>自助诊断。
单击网络诊断页签。
单击静态配置类检查。
在诊断信息区域的下拉列表中,选择目标集群名称、节点ID等信息。
单击开始诊断。
动态运行类检查为灵骏节点提供动态运行类的诊断,包括TCP连通性检查、TCP时延检查、RDMA连通性检查等。
在左侧导航栏,选择一键诊断>自助诊断。
单击网络诊断页签。
单击动态运行类检查。
在诊断信息区域的下拉列表中,配置目标集群名称、节点ID等信息。
单击开始诊断。
服务器诊断
服务器诊断支持诊断灵骏节点的硬件状态并提供可视化的诊断结果。
在左侧导航栏,选择一键诊断>自助诊断。
单击服务器诊断页签。
单击系统硬件诊断。
在诊断信息区域的下拉列表中,配置目标集群名称、节点ID等信息。
单击开始诊断。
网络测试
网络测试包括通用网络测试和通讯库测试,其中通用网络测试包含了时延、流量两个维度测试,通信库测试基于ACCL、NCCL两种通信库及多种通信模型进行测试。
通用网络测试
在左侧导航栏,选择一键诊断>网络测试。
单击通用网络测试页签。
在测试信息区域,选择网络协议和测试类型,然后进行相应配置。
RDMA协议流量测试
配置参数
说明
流量模型
MtoN模型:测试Clients节点到Servers节点的单向连通性,包括单个Clients节点到单个Servers节点、多个Clients节点到多个Servers节点等情况。
Fullmesh模型:测试所有目标灵骏节点两两之间的连通性。
测试时长
在下拉列表中选择固定时长,单位为秒。
QP
测试进程流的数量,影响测试带宽的大小。
GDR
如果开启GDR,会绑定灵骏网卡与对应的GPU进行流量测试。
集群名称
目标灵骏节点所在的集群名称。
Clients
如果选择MtoN模型,需要选择Clients节点。
Servers
如果选择MtoN模型,需要选择Servers节点。
选择目标节点
如果选择Fullmesh模型,需要选择目标节点。
节点端口
测试使用的起始端口。
RDMA协议时延测试
配置参数
说明
集群名称
目标灵骏节点所在的集群名称。
测试节点
时延测试会检查所有测试节点两两之间的网络时延。
节点端口
测试使用的起始端口。
单击开始诊断。
通讯库测试
在左侧导航栏,选择一键诊断>网络测试。
单击通讯库测试页签。
配置测试信息。
配置参数
说明
通讯库类别
目前只支持ACCL和NCCL。
通讯模型
ALLReduce:将多个进程的数据聚合在一起,通过运算将它们缩减为单个值,并把结果分发给所有进程。
ALLGather:将所有进程的数据收集到一个结构中,以便每个进程访问数据。
ALLGatherA:在ALLGather的基础上增加了数据类型参数,可以传输多种数据类型,包括大数据类型和自定义数据类型。
ALLToALL:将每个进程的数据分发给其他进程,每个进程都将得到来自所有其他进程的数据。
ALLToALLA:在ALLToAll的基础上增加了数据类型参数和缓冲区参数,可以用于不同大小和类型数据之间的通信。
Broadcast:将一个进程的数据分发给所有其他进程。
GPU数量
取值范围:1~8。
集群名称
目标灵骏节点所在的集群名称。
选择目标节点
在选择目标节点时只需要具体到每一个IP地址,不需要指定到具体灵骏节点即可开始测试。
节点端口
测试使用的起始端口。
单击开始测试。
查看报告
诊断历史展示了自助诊断和网络测试的报告信息包括报告ID、集群名称等,单击页签可以切换不同类型诊断的报告记录。在目标报告ID后的操作列单击,进行相应操作。
查看报告。查看目标诊断的诊断结果和诊断列表。
再次诊断。再次进行目标诊断。