灵骏网络规划

更新时间:
复制为 MD 格式

灵骏网络包括灵骏网段、灵骏连接、灵骏HUB等基础组件。您可以根据业务需求创建灵骏网段及灵骏子网,在灵骏子网内部署灵骏节点,灵骏节点通过灵骏连接实现与云企业网或用户VPC网络的连通。不同灵骏网段之间、灵骏网段与灵骏连接之间可以通过灵骏HUB连通。

重要

注意:该文档仅适用于在创建集群时需要配置灵骏连接的节点机型。

网络架构

image

其中包含如下组件:

  • 灵骏网段:灵骏网络的私有网络空间,用于规划整体 IP 地址范围。

  • 灵骏子网:灵骏网段中的子网络,用于部署和连接灵骏节点。

  • 灵骏连接:用于打通灵骏节点与云企业网、VPC 的网络。

  • 灵骏HUB:用于打通不同灵骏网段,或打通灵骏网段与灵骏连接。

  • 灵骏网卡:灵骏节点上的网络接口,用于节点间通信。

  • 云企业网:用于实现 VPC 与 VPC、VPC 与本地数据中心之间的私网互通。

应该使用几个灵骏网段 ?

场景一:需要 RDMA 通信

如果节点之间需要进行 RDMA 通信,这些节点必须部署在同一个灵骏网段内。因为 RDMA 不支持跨灵骏网段通信。

场景二:不需要 RDMA 通信

如果不涉及 RDMA,可根据是否需要网络隔离来决定:

  • 没有隔离需求:建议只使用 1 个灵骏网段,管理更简单。

  • 有隔离需求:例如生产环境和测试环境分开,建议使用 多个灵骏网段。

使用多个灵骏网段时,请注意:

  • 一个灵骏网段内可以部署多个集群。

  • 一个灵骏集群只能部署在一个灵骏网段内。

  • 不同灵骏网段中的节点不能通过 RDMA 组成同一个集群。

  • 建议提前规划好各网段地址,避免地址冲突。

  • 如果需要不同网段之间互通,可通过灵骏 HUB 配置路由策略实现。

应该使用几个灵骏子网 ?

根据网卡数量来规划灵骏子网,建议将同一灵骏节点上的多张网卡分别接入不同子网。这是因为如果一个子网中接入的灵骏网卡过多,可能导致节点上的 ARP 条目过多,进而影响 RDMA 通信稳定性,严重时会造成训练任务中断。

示例:如果一个灵骏节点有 5 张灵骏网卡,建议在对应灵骏网段下创建 5 个灵骏子网,每张网卡接入一个不同的子网。

image
说明

同一灵骏网段相同可用区内,不同灵骏子网间的通信时延和吞吐量与同一子网内的表现一致。

应该选择什么网段 ?

在创建灵骏网段与灵骏子网时,您必须按照无类域间路由块(CIDR block)的格式为您的灵骏网络划分私网网段。

规划灵骏网段

您可以使用除100.64.0.0/10224.0.0.0/4127.0.0.0/8169.254.0.0/16以外的网段及其子网作为灵骏网段的网段。

说明
  • 您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。

  • 集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。

规划灵骏子网

灵骏子网的网段地址必须是所属灵骏网段的子集。例如灵骏网段是192.168.0.0/16,那么该灵骏网段下的灵骏子网的网段地址可以是192.168.0.0/17192.168.0.0/29

说明
  • 灵骏子网的掩码长度不建议小于23(即单个灵骏子网内IP数量不超过512),避免灵骏节点地址的解析协议ARP条目过多,导致灵骏节点资源耗尽。

  • 灵骏子网的网段规划还需要考虑该子网下灵骏节点的IP数量。