灵骏网络规划

灵骏网络包括灵骏网段、灵骏连接、灵骏HUB等基础组件。您可以根据业务需求创建灵骏网段及灵骏子网,在灵骏子网内部署灵骏节点,灵骏节点通过灵骏连接实现与云企业网或用户VPC网络的连通。不同灵骏网段之间、灵骏网段与灵骏连接之间可以通过灵骏HUB连通。本文为您介绍如何基于具体的业务需求,规划灵骏网段与灵骏子网的数量以及网段地址。

灵骏网段、灵骏连接、灵骏HUB等基础组件的关系图如下。各个基础组件的更多信息,请参见管理灵骏网段管理灵骏连接管理灵骏HUB管理灵骏网卡

image

应该使用几个灵骏网段?

灵骏网段和灵骏子网的设置,请参见管理灵骏网段

  • 需要进行RDMA通信

    因为RDMA通信不支持跨灵骏网段,所以需要进行RDMA通信的灵骏节点必须部署在同一灵骏网段内。

  • 不需要进行RDMA通信

    • 如果您没有灵骏网段隔离的业务需求,推荐只使用一个灵骏网段。

    • 如果您有灵骏网段隔离的业务需求(比如生产和测试环境分开),推荐使用多个灵骏网段,但需要注意:

      • 同一灵骏网段内可以部署多个灵骏集群,但同一灵骏集群只能部署在一个灵骏网段内。

      • 跨灵骏网段的灵骏节点之间无法进行RDMA通信,因此无法组成灵骏集群。

      • 提前规划不同灵骏网段的网段地址,以避免不同灵骏网段之间地址冲突而导致的网络异常。

      • 将多个灵骏网段关联到灵骏HUB后,可以通过调整灵骏HUB的路由策略,来实现不同灵骏网段之间的访问或隔离。灵骏HUB的更多信息,请参见管理灵骏HUB

应该使用几个灵骏子网?

为避免同一灵骏子网内灵骏网卡的数量过多,导致灵骏节点地址的解析协议ARP(Address Resolution Protocol)条目过多、灵骏节点资源耗尽,最终造成RDMA通信的波动甚至训练任务的中断,建议将同一灵骏节点的网卡接入到不同灵骏子网内。

例如:单个灵骏节点配置5张灵骏网卡,建议您在相应灵骏网段下创建5个灵骏子网,每张灵骏网卡分别接入不同灵骏子网。

image
说明

同一灵骏网段相同可用区内,不同灵骏子网间的通信时延和吞吐量与同一子网内的表现一致。

应该选择什么网段?

在创建灵骏网段与灵骏子网时,您必须按照无类域间路由块(CIDR block)的格式为您的灵骏网络划分私网网段。

  • 规划灵骏网段

    您可以使用除100.64.0.0/10224.0.0.0/4127.0.0.0/8169.254.0.0/16以外的网段及其子网作为灵骏网段的网段。

    说明
    • 您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。

    • 集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。

  • 规划灵骏子网

    灵骏子网的网段地址必须是所属灵骏网段的子集。例如灵骏网段是192.168.0.0/16,那么该灵骏网段下的灵骏子网的网段地址可以是192.168.0.0/17192.168.0.0/29

    说明
    • 灵骏子网的掩码长度不建议小于23(即单个灵骏子网内IP数量不超过512),避免灵骏节点地址的解析协议ARP条目过多,导致灵骏节点资源耗尽。

    • 灵骏子网的网段规划还需要考虑该子网下灵骏节点的IP数量。