基于SCC实例规格族的RDMA驱动安装说明

背景信息 SCC实例规格族ecs.sccc7和ecs.sccg7配置了RDMA网卡,处于同一可用区同一高可用集群内的多台实例之间可以使用RoCE RDMA网卡通信。阿里云的SCC实例默认仅支持特定的SCC版操作系统镜像,如果是基于CentOS 7.9或CentOS 8.4版本的自...

在GPU实例上配置eRDMA

GPU实例绑定弹性RDMA网卡(ERI)后,各GPU实例间在VPC网络下可以实现RDMA直通加速互联,相比传统的RDMA,eRDMA可以提供更高效的数据传输服务,有效提升GPU实例之间的通信效率并缩短任务处理时间。本文介绍如何在GPU实例上配置eRDMA。背景...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行...ListInstancesByNcd 查询与指定GPU节点或指定网卡通信距离不超过指定NCD的GPU节点列表。NCD的取值范围为1~10。

RDMA:使用高性能网络进行分布式训练

NCCL_IB_HCA 需要指定RDMA通信网卡。在不同的算力节点下IBdev的数量和命名规则有所区别,若未配置或配置错误可能会导致性能受损。NCCL_IB_TIMEOUT 增加RDMA连接超时时间,可以提升训练任务时的容错性能,若未配置或配置错误可能会导致...

快速提交MPIJob训练任务

环境变量 描述 默认值 适用场景 OMPI_MCA_btl_tcp_if_include 为Launcher和Worker指定通信网卡,多个网卡之间使用半角逗号(,)分隔。eth0 适用于使用mpirun方式启动作业。OMPI_MCA_orte_default_hostfile 为mpirun命令指定hostfile,在...

网络安全

私网连接提供私网访问、终端节点安全组等方式,可有效提升资源间互访时的安全...通过终端节点安全组拦截攻击流量 安全组是重要的网络安全隔离手段,终端节点安全组可以管控VPC到终端节点网卡的数据通信。具体操作,请参见 加入和管理安全组。

使用私网连接的访问控制功能

设置终端节点安全组 创建终端节点后,您可以通过加入安全组来管控专有网络VPC(Virtual Private Cloud)到终端节点网卡的数据通信,当您不需要该安全组时,您可以删除终端节点网卡关联的安全组。更多信息,请参见 加入和管理安全组。相关...

加入和管理安全组

创建终端节点后,您可以通过加入安全组来管控 VPC 到终端节点网卡的数据通信,只有符合安全组规则的客户端流量才能通过终端节点访问服务提供方提供的服务。当您不需要该安全组时,可以删除终端节点网卡关联的安全组。前提条件 您已创建了...

什么是私网连接

终端节点安全组(Endpoint Security Group)安全组可以管控VPC到终端节点网卡的数据通信,终端节点至少要加入一个安全组。指定安全组后,终端节点下的所有网卡都将加入到安全组中。终端节点服务(Endpoint Service)终端节点服务是可以被...

创建和管理终端节点

安全组 选择要与终端节点网卡关联的安全组,安全组可以管控 VPC 到终端节点网卡的数据通信。终端节点网卡是终端节点 VPC 访问终端节点服务的入口。说明 一个终端节点默认最多支持添加5个安全组。可用区与交换机 选择终端节点服务对应的可用...

启动方式与环境变量说明

PERSEUS_NCCL_NETWORK_INTERFACE(1.5.0+)设置nccl通信使用的网卡信息,默认为eth0。如有特殊网卡配置,可以根据实际情况进行调整。PERSEUS_GLOO_NETWORK_INTERFACE(1.5.0+)设置gloo通信使用的网卡信息,默认为eth0。如有特殊网卡配置,可以...

DDH常见问题

本文介绍DDH相关的常见问题及解决方案。DDH相关的常见问题及解决方案如下:什么是专有宿主机DDH?DDH有什么优势?在什么场景下需要购买DDH?DDH是裸机产品吗?...说明 ethx指ECS实例内部通信用的网卡,请根据实际情况替换,例如eth0。

CreateNetworkInterface-创建一个弹性网卡

说明 对于使用 RDMA 通信模式的弹性网卡,仅允许与实例规格支持 ERI 的实例绑定,且使用 RDMA 模式的弹性网卡数量不能超过该实例规格族的限制。更多信息,请参见 实例规格族,在企业级实例上配置 eRDMA 及 在 GPU 实例上配置 eRDMA。默认值...

QueryInstanceNcd-查询实例网络通信距离

查询实例(灵骏节点、灵骏网卡)之间的网络通信距离(Network Communication Distance,NCD)。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权...

API概览

QueryInstanceNcd 查询实例网络通信距离 查询实例(灵骏节点、灵骏网卡)之间的网络通信距离(Network Communication Distance,NCD)。GetFabricTopology 查询VPD物理拓扑 查询VPD下灵骏网卡和灵骏节点的物理拓扑信息。其他 API 标题 API...

部署架构

这样TPP VPC ECS就有两张网卡,一个带有TPP云服务VPC属性,另一个带有用户VPC属性,通过带有用户VPC属性的网卡,实现与用户VPC的通信。并通过弹性网卡上配置的安全组,进行相关的安全控制。用户VPC访问TPP服务 私网连接(PrivateLink)能够...

Netpila

因此,该场景下Pod间的网络通信拥有比默认VXLAN模式更高的通信性能。变更记录 2024年2月 组件名称 版本号 镜像地址 变更时间 变更内容 变更影响 netpila-agent 3.2.3 registry-vpc....

实例管理常见问题

KMS会创建2~4个ENI网卡用于KMS实例与密码机集群通信,每个ENI网卡需要占用交换机内的一个IP数量。说明 您可以登录 专有网络管理控制台,在 交换机 页面单击目标交换机,在详情页面查看可用IP数。更换要绑定的交换机,并确保交换机的可用IP...

普通模式下实现ECS绑定多EIP

ECS 实例需要通过公网IP才能与公网通信。在不使用辅助弹性网卡的情况下,每个 ECS 实例仅支持分配1个固定公网IP或绑定1个 EIP。通过为辅助弹性网卡绑定弹性公网IP地址,您可以实现单个 ECS 实例分配多公网IP地址。如果您的 ECS 实例托管多...

使用Terway网络插件

跨ECS的Pod通信,报文通过VPC的弹性网卡直接转发。由于不需要使用VxLAN等隧道技术封装报文,因此Terway模式网络具有较高的通信性能。Terway提供共享ENI多IP模式和独占ENI模式,以下介绍两种方式的实现原理和存在的差异。Terway共享ENI多IP...

功能特性

阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...

PAI灵骏智算服务概述

阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,彻底消除网络拥塞,提升网络通信效率,提高分布式训练系统的扩展性。在万卡规模下,可达80%以上的线性集群能力。在百卡规模下,有效...

Terway

同一台ECS内的Pod之间通信,直接通过机器内部的转发,跨ECS的Pod通信、报文通过VPC的弹性网卡直接转发。由于不需要使用VxLAN等的隧道技术封装报文,因此Terway模式网络具有较高的通信性能。使用说明 关于Terway网络插件的使用,请参见 使用...

网络最大传输单元MTU

修改ECS网卡MTU 在阿里云上,一些通信场景或网络产品(例如VPN网关、流量镜像)对ECS发出的数据包大小有着更加严格的要求,需要您主动缩小数据包尺寸,以保证网络连通性或更好的用户体验。您可以通过如下操作方法来修改ECS网卡的MTU值,以...

创建及管理灵骏弹性网卡

功能特点 LENI是绑定在灵骏节点上的网卡,用以保证其基本的通信能力。LENI具备以下功能特点:每张LENI可以分配多个辅助私网IP地址,并且支持单独回收。释放LENI时,其上的辅助私网IP地址将被自动回收。在灵骏节点执行缩容或重装流程时,...

ListInstancesByNcd-通过网络通信距离筛选实例

查询与指定GPU节点,通信距离不超过指定NCD的GPU节点列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求...

sccgn系列实例使用说明及验证

使用说明 sccgn系列机型同时配备了GPU计算卡和Mellanox高性能网卡,具备超强的计算能力和网络通信能力。适用于如深度学习、高性能计算等高强度计算和密集通信兼备的应用场景。使用sccgn系列实例的几点说明:如果您只需使用RDMA功能,在创建...

弹性网卡概述

通过控制台管理 创建辅助弹性网卡 绑定辅助弹性网卡 解绑辅助弹性网卡 删除辅助弹性网卡 分配辅助私网IP地址 回收辅助私网IP地址 修改弹性网卡属性 弹性网卡使用eRDMA 配置网卡多队列 通过调用API管理 创建一个辅助弹性网卡:...

共享内存通信(SMC)常见问题

SMC通信所使用的资源受限于机器内存和eRDMA网卡规格,资源不足可能导致SMC回退到TCP。更多信息,请参见 共享内存通信(SMC)使用说明。启用SMC后无法正常通信 问题描述 使用Alibaba Cloud Linux 3开启SMC之后,访问某些地址(例如某些公网...

高可用虚拟IP(HaVip)

HaVip是否支持广播和组播通信 不支持 说明 HaVip只支持单播,如果您使用Keepalived等第三方软件实现高可用,需要修改配置文件中的通信方式为单播通信。单个账号支持创建的HaVip的数量 50个 单个VPC支持创建的HaVip的数量 50个 vpc_quota_...

什么是AI分布式训练通信优化库AIACC-ACSpeed

优化方法 相比较传统的ring-allreduce算法,ACSpeed设计的hybrid-allreduce算法实现了单机和多机的分层训练,充分利用单机内部高速带宽同时降低多机之间低速网络的通信量,并且针对阿里云不同机型的网卡和GPU距离的拓扑特点,实现多种不同...

限制与配额

HaVip是否支持广播和组播通信 不支持 说明 HaVip只支持单播,如果您使用Keepalived等第三方软件实现高可用,需要修改配置文件中的通信方式为单播通信。单个账号支持创建的HaVip的数量 50个 单个VPC支持创建的HaVip的数量 50个 vpc_quota_...

云边通信组件Raven概述

跨网络域的请求会通过raven0网卡转发到网关节点,然后通过VPN隧道进行通信。具体架构,如下图所示。相关文档 如您需要更改通信模式、配置访问控制白名单或使用自定义资源Gateway进行特殊配置,请参见 使用云边通信Raven组件。ACK Edge集群 ...

通信时长

通信时长查询功能可以查询指定AppID下通信时长数据。通过阅读本文,您可以了解通信时长的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 用量查询>通信时长,进入通信时长查询界面。选择待查询的AppID、区域及时间,单击 ...

通信时长

通信时长查询功能可以查询指定AppID下通信时长数据。通过阅读本文,您可以了解通信时长的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 用量查询>通信时长,进入通信时长查询界面。选择待查询的AppID、区域及时间区域,...

通信监测

通信监测功能可以查询指定AppID下全链路通话数据(包含通信质量和频道数据)。通过阅读本文,您可以了解通信监测的查询方法和通信监测作用。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 观星台>通信监测,进入通信监测界面。选择...

通信监测

通信监测功能可以查询指定AppID下全链路通话数据(包含通信质量和频道数据)。通过阅读本文,您可以了解通信监测的查询方法。操作步骤 登录 音视频通信RTC控制台。在左侧导航栏选择 观星台>通信监测,进入通信监测界面。选择待查询的AppID...

控制台介绍

音视频通信控制台提供了观星台、用量查询、统计分析、应用管理、接入工具、配置管理、服务授权管理的配置与使用。通过阅读本文,您可以了解控制台概览及各功能的简介。操作步骤 登录 音视频通信RTC控制台。查看控制台概览。功能区名称 说明...

概览

功能区名称 说明 昨日用量 昨日音视频通信服务使用的总时长、日活跃用户数、并发频道峰值和并发通信峰值。通信时长趋势 最近七日通信时长的趋势图。使用指南 一些常见问题及使用说明的文档链接。资源包 音视频通信时长包(国内版)购买入口...

应用管理

操作列由用量监控、通信记录、查询AppKey及更多功能组成,如下所示:功能 描述 用量监控 查询该应用下不同音视频规格的通信时长,具体操作,请参见 通信时长。通信记录 查询该应用下全链路通话数据(包含通信质量和频道数据),具体操作,...
共有122条 < 1 2 3 4 ... 122 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
音视频通信 高速通道 物联网无线连接服务 短信服务 边缘网络加速 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用