灵骏网络包括灵骏网段、灵骏连接、灵骏HUB等基础组件。您可以根据业务需求创建灵骏网段及灵骏子网,在灵骏子网内部署灵骏节点,灵骏节点通过灵骏连接实现与云企业网或用户VPC网络的连通。不同灵骏网段之间、灵骏网段与灵骏连接之间可以通过灵骏HUB连通。
注意:该文档仅适用于在创建集群时需要配置灵骏连接的节点机型。
网络架构
其中包含如下组件:
应该使用几个灵骏网段 ?
场景一:需要 RDMA 通信
如果节点之间需要进行 RDMA 通信,这些节点必须部署在同一个灵骏网段内。因为 RDMA 不支持跨灵骏网段通信。
场景二:不需要 RDMA 通信
如果不涉及 RDMA,可根据是否需要网络隔离来决定:
没有隔离需求:建议只使用 1 个灵骏网段,管理更简单。
有隔离需求:例如生产环境和测试环境分开,建议使用 多个灵骏网段。
使用多个灵骏网段时,请注意:
一个灵骏网段内可以部署多个集群。
一个灵骏集群只能部署在一个灵骏网段内。
不同灵骏网段中的节点不能通过 RDMA 组成同一个集群。
建议提前规划好各网段地址,避免地址冲突。
如果需要不同网段之间互通,可通过灵骏 HUB 配置路由策略实现。
应该使用几个灵骏子网 ?
根据网卡数量来规划灵骏子网,建议将同一灵骏节点上的多张网卡分别接入不同子网。这是因为如果一个子网中接入的灵骏网卡过多,可能导致节点上的 ARP 条目过多,进而影响 RDMA 通信稳定性,严重时会造成训练任务中断。
示例:如果一个灵骏节点有 5 张灵骏网卡,建议在对应灵骏网段下创建 5 个灵骏子网,每张网卡接入一个不同的子网。
同一灵骏网段相同可用区内,不同灵骏子网间的通信时延和吞吐量与同一子网内的表现一致。
应该选择什么网段 ?
在创建灵骏网段与灵骏子网时,您必须按照无类域间路由块(CIDR block)的格式为您的灵骏网络划分私网网段。
规划灵骏网段
您可以使用除100.64.0.0/10、224.0.0.0/4、127.0.0.0/8、169.254.0.0/16以外的网段及其子网作为灵骏网段的网段。
-
您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。
-
集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。
规划灵骏子网
灵骏子网的网段地址必须是所属灵骏网段的子集。例如灵骏网段是192.168.0.0/16,那么该灵骏网段下的灵骏子网的网段地址可以是192.168.0.0/17到192.168.0.0/29。
灵骏子网的掩码长度不建议小于23(即单个灵骏子网内IP数量不超过512),避免灵骏节点地址的解析协议ARP条目过多,导致灵骏节点资源耗尽。
灵骏子网的网段规划还需要考虑该子网下灵骏节点的IP数量。