灵骏网络包括灵骏网段、灵骏连接、灵骏HUB等基础组件。您可以根据业务需求创建灵骏网段及灵骏子网,在灵骏子网内部署灵骏节点,灵骏节点通过灵骏连接实现与云企业网或用户VPC网络的连通。不同灵骏网段之间、灵骏网段与灵骏连接之间可以通过灵骏HUB连通。本文为您介绍如何基于具体的业务需求,规划灵骏网段与灵骏子网的数量以及网段地址。
灵骏网段、灵骏连接、灵骏HUB等基础组件的关系图如下。各个基础组件的更多信息,请参见管理灵骏网段、管理灵骏连接、管理灵骏HUB和管理灵骏网卡。
应该使用几个灵骏网段?
灵骏网段和灵骏子网的设置,请参见管理灵骏网段。
需要进行RDMA通信
因为RDMA通信不支持跨灵骏网段,所以需要进行RDMA通信的灵骏节点必须部署在同一灵骏网段内。
不需要进行RDMA通信
如果您没有灵骏网段隔离的业务需求,推荐只使用一个灵骏网段。
如果您有灵骏网段隔离的业务需求(比如生产和测试环境分开),推荐使用多个灵骏网段,但需要注意:
同一灵骏网段内可以部署多个灵骏集群,但同一灵骏集群只能部署在一个灵骏网段内。
跨灵骏网段的灵骏节点之间无法进行RDMA通信,因此无法组成灵骏集群。
提前规划不同灵骏网段的网段地址,以避免不同灵骏网段之间地址冲突而导致的网络异常。
将多个灵骏网段关联到灵骏HUB后,可以通过调整灵骏HUB的路由策略,来实现不同灵骏网段之间的访问或隔离。灵骏HUB的更多信息,请参见管理灵骏HUB。
应该使用几个灵骏子网?
为避免同一灵骏子网内灵骏网卡的数量过多,导致灵骏节点地址的解析协议ARP(Address Resolution Protocol)条目过多、灵骏节点资源耗尽,最终造成RDMA通信的波动甚至训练任务的中断,建议将同一灵骏节点的网卡接入到不同灵骏子网内。
例如:单个灵骏节点配置5张灵骏网卡,建议您在相应灵骏网段下创建5个灵骏子网,每张灵骏网卡分别接入不同灵骏子网。
同一灵骏网段相同可用区内,不同灵骏子网间的通信时延和吞吐量与同一子网内的表现一致。
应该选择什么网段?
在创建灵骏网段与灵骏子网时,您必须按照无类域间路由块(CIDR block)的格式为您的灵骏网络划分私网网段。
规划灵骏网段
您可以使用除
100.64.0.0/10
、224.0.0.0/4
、127.0.0.0/8
、169.254.0.0/16
以外的网段及其子网作为灵骏网段的网段。说明您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。
集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。
规划灵骏子网
灵骏子网的网段地址必须是所属灵骏网段的子集。例如灵骏网段是
192.168.0.0/16
,那么该灵骏网段下的灵骏子网的网段地址可以是192.168.0.0/17
到192.168.0.0/29
。说明灵骏子网的掩码长度不建议小于23(即单个灵骏子网内IP数量不超过512),避免灵骏节点地址的解析协议ARP条目过多,导致灵骏节点资源耗尽。
灵骏子网的网段规划还需要考虑该子网下灵骏节点的IP数量。