文档

一键诊断

更新时间:

您可以使用PAI灵骏智算服务提供的一键诊断功能,检查灵骏节点的网络和硬件状态,基于多种通信库和通信模型进行网络测试。本文为您介绍灵骏的一键诊断功能。

自助诊断

网络诊断

网络诊断功能分为静态配置类检查动态运行类检查,支持诊断灵骏节点的网络状态并提供可视化的诊断结果。

  • 静态配置类检查为灵骏节点提供静态配置类的诊断,包括系统软件检查、网络检查、GPU检查等。

    1. 登录灵骏控制台

    2. 在左侧导航栏,选择一键诊断>自助诊断

    3. 单击网络诊断页签。

    4. 单击静态配置类检查

    5. 诊断信息区域的下拉列表中,选择目标集群名称节点ID等信息。

    6. 单击开始诊断

  • 动态运行类检查为灵骏节点提供动态运行类的诊断,包括TCP连通性检查、TCP时延检查、RDMA连通性检查等。

    1. 在左侧导航栏,选择一键诊断>自助诊断

    2. 单击网络诊断页签。

    3. 单击动态运行类检查

    4. 诊断信息区域的下拉列表中,配置目标集群名称节点ID等信息。

    5. 单击开始诊断

服务器诊断

服务器诊断支持诊断灵骏节点的硬件状态并提供可视化的诊断结果。

  1. 在左侧导航栏,选择一键诊断>自助诊断

  2. 单击服务器诊断页签。

  3. 单击系统硬件诊断

  4. 诊断信息区域的下拉列表中,配置目标集群名称节点ID等信息。

  5. 单击开始诊断

网络测试

网络测试包括通用网络测试和通讯库测试,其中通用网络测试包含了时延、流量两个维度测试,通信库测试基于ACCL、NCCL两种通信库及多种通信模型进行测试。

通用网络测试

  1. 在左侧导航栏,选择一键诊断>网络测试

  2. 单击通用网络测试页签。

  3. 测试信息区域,选择网络协议测试类型,然后进行相应配置。

    RDMA协议流量测试

    配置参数

    说明

    流量模型

    • MtoN模型:测试Clients节点到Servers节点的单向连通性,包括单个Clients节点到单个Servers节点、多个Clients节点到多个Servers节点等情况。

    • Fullmesh模型:测试所有目标灵骏节点两两之间的连通性。

    测试时长

    在下拉列表中选择固定时长,单位为秒。

    QP

    测试进程流的数量,影响测试带宽的大小。

    GDR

    如果开启GDR,会绑定灵骏网卡与对应的GPU进行流量测试。

    集群名称

    目标灵骏节点所在的集群名称。

    Clients

    如果选择MtoN模型,需要选择Clients节点。

    Servers

    如果选择MtoN模型,需要选择Servers节点。

    选择目标节点

    如果选择Fullmesh模型,需要选择目标节点。

    节点端口

    测试使用的起始端口。

    RDMA协议时延测试

    配置参数

    说明

    集群名称

    目标灵骏节点所在的集群名称。

    测试节点

    时延测试会检查所有测试节点两两之间的网络时延。

    节点端口

    测试使用的起始端口。

    TCP协议流量测试

    配置参数

    说明

    流量模型

    • MtoN模型测试Clients节点到Servers节点的单向连通性,包括单个Clients节点到单个Servers节点、多个Clients节点到多个Servers节点等情况。

    • Fullmesh模型测试所有目标灵骏节点两两之间的连通性。

    测试时长

    在下拉列表中选择固定时长,单位为秒。

    并发连接数

    影响测试带宽的大小。

    GDR

    如果开启GDR,会绑定灵骏网卡与对应的GPU进行流量测试。

    集群名称

    目标灵骏节点所在的集群名称。

    Clients

    如果选择MtoN模型,需要选择Clients节点。

    Servers

    如果选择MtoN模型,需要选择Servers节点

    选择目标节点

    如果选择Fullmesh模型,需要选择目标节点。

    节点端口

    测试使用的起始端口。

  4. 单击开始诊断

通讯库测试

  1. 在左侧导航栏,选择一键诊断>网络测试

  2. 单击通讯库测试页签。

  3. 配置测试信息

    配置参数

    说明

    通讯库类别

    目前只支持ACCLNCCL

    通讯模型

    • ALLReduce:将多个进程的数据聚合在一起,通过运算将它们缩减为单个值,并把结果分发给所有进程。

    • ALLGather:将所有进程的数据收集到一个结构中,以便每个进程访问数据。

    • ALLGatherA:在ALLGather的基础上增加了数据类型参数,可以传输多种数据类型,包括大数据类型和自定义数据类型。

    • ALLToALL:将每个进程的数据分发给其他进程,每个进程都将得到来自所有其他进程的数据。

    • ALLToALLA:在ALLToAll的基础上增加了数据类型参数和缓冲区参数,可以用于不同大小和类型数据之间的通信。

    • Broadcast:将一个进程的数据分发给所有其他进程。

    GPU数量

    取值范围:1~8。

    集群名称

    目标灵骏节点所在的集群名称。

    选择目标节点

    在选择目标节点时只需要具体到每一个IP地址,不需要指定到具体灵骏节点即可开始测试。

    节点端口

    测试使用的起始端口。

  4. 单击开始测试

查看报告

诊断历史展示了自助诊断网络测试的报告信息包括报告ID集群名称等,单击页签可以切换不同类型诊断的报告记录。在目标报告ID后的操作列单击,进行相应操作。

  • 查看报告。查看目标诊断的诊断结果和诊断列表。

  • 再次诊断。再次进行目标诊断。