什么是AI分布式训练通信优化库AIACC-ACSpeed

AIACC-ACSpeed优化原理 场景说明 使用单机多卡或多机多卡进行AI分布式训练时,分布式通信的线性度可作为单卡训练扩展到多卡的性能指标,线性度的计算方式如下:单机内部扩展性:线性度=多卡性能/单卡性能/单机卡数 多机之间扩展性:线性度=...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里云神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

使用IMB软件和MPI通信库测试集群通信性能

本文以IMB软件和MPI通信库为例介绍如何测试E-HPC集群的通信性能。背景信息 IMB(Intel MPI Benchmarks)用于评估HPC集群在不同消息粒度下节点间点对点、全局通信的效率。MPI(Message Passing Interface)是支持多编程语言编程的并行计算...

安装ACCL库

ACCL(Alibaba Collective Communication Library)是一款高性能通信库,提供了AllReduce、AllToAllV、Broadcast等常用集合操作接口以及点到点Send/Recv接口,为多机多卡训练提供高效的通信支持。本文为您介绍如何安装ACCL库。背景信息 ...

基于eRDMA增强型实例部署AI训练集群

在NCCL底层通信链接上,有多种不同的传输方式,例如单机内部多卡P2P通信以及多机上的传统socket通信(如VPC网络)和高性能的InfiniBand(IB)通信,其中eRDMA是一种基于RDMA的传输方式,具有极低的延迟,并且在性能上接近RDMA网络的优势。...

eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里云提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA的能力实现需要基于支持eRDMA能力的实例规格,创建挂载支持弹性RDMA能力的网卡,才能够实现具有大规模RDMA...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

eRDMA概述

众多应用都是基于TCP/IP构建的,但随着数据中心相关的业务蓬勃发展,应用对于网络的性能需求(如延迟、吞吐)越来越高,受限于TCP/IP的局限性(如拷贝开销大、协议栈处理厚、CC算法复杂、上下文切换频繁等),TCP/IP的网络通信性能已经成为...

产品简介

API 网关是金融分布式架构 SOFAStack 下的一个 API 管理平台,提供 API 托管服务,帮助企业开发者将内部系统的接口封装成 API 开放出去,供外部应用调用,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。...

API 统一网关

API 网关是金融分布式架构 SOFAStack 下的一个 API 管理平台,旨在帮助企业统一管理对内外开放的 API,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。不仅用于企业对外部合作伙伴开放业务,同时保证企业...

概述

API 网关 SOFAStack API 网关是一个 API 管理平台,帮助企业统一管理对内外开放的 API,为网络隔离的系统间提供高性能、高安全、高可靠通信,同时保障内部系统的安全性。用于满足企业对外部合作伙伴开放业务,企业自身混合云互通、企业...

SLB实例为性能保障型实例

性能保障型实例提供可靠性能指标。性能共享型实例由于资源是所有实例共享的,因此不保障实例的性能指标。风险等级 默认风险等级:高风险。当您使用该规则时,可以按照实际需求变更风险等级。检测逻辑 SLB实例为性能保障型实例,视为...

网络最大传输单元MTU

重要 对于超过链路最大MTU限制的数据包,阿里云转发组件会依据RFC标准对报文进行分片或协商,但是这只能保证连通性,不能保证网络通信性能。因此在链路最大MTU为1500的通信场景下,尽量避免使用巨型帧进行UDP、ICMP通信。对于阿里云上...

存储概述

常用的云存储服务如下:云盘 一种数据块级别的块存储产品,采用分布式多副本机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。更多信息,请参见 云盘概述。文件存储NAS 一种可共享访问、弹性扩展、高可靠以及...

使用云存储

常用的云存储服务如下:云盘 一种数据块级别的块存储产品,采用分布式多副本机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。更多信息,请参见 云盘概述。文件存储NAS 一种可共享访问、弹性扩展、高可靠以及...

阿里云存储服务

为您的数据选择合适的阿里云存储服务,也就是在数据的可用性、持久性和性能方面找到最匹配的产品。说明 可用性是指存储产品根据请求提供数据的能力。持久性是指年平均预期数据丢失。性能是指存储产品可以提供的IOPS或吞吐量。阿里云提供三...

块存储

其中:云盘是阿里云为云服务器ECS提供的数据块级别的块存储产品,采用多副本的分布式机制,具有低时延、高性能、持久性、高可靠性能,可以随时创建、扩容以及释放。本地盘是基于云服务器ECS所在物理机(宿主机)上的本地硬盘设备,为ECS...

什么是IP应用加速

功能简介 IP应用加速(TCP/UDP)提供低时延、高可靠的四层网络传输服务,可以为您解决跨运营商网络不稳定、单线源站、突发流量、网络拥塞等诸多因素导致的延迟高、服务不稳定的问题,提升传输性能和用户体验。同时您可以自定义网络的传输...

性能监控最佳实践

为了保证业务的稳定性和可靠性,企业需要对其系统进行全面的性能监控。而一体化性能监控就是一种集成了多种监控工具和技术的综合性监控方案,可以帮助企业更加全面、高效地监控其系统的性能。提高监控效率:传统的性能监控方案往往需要使用...

如何选择PSL4和PSL5

性能可靠性要求高,以数据库为核心系统的业务场景,如金融、电商、政务和大中型互联网业务等。PSL4(PolarStore Level 4)PolarDB 全新推出的存储类型,采用阿里巴巴自研的 硬件压缩盘(Smart-SSD)技术,在物理SSD磁盘层面压缩、解...

如何选择PSL4和PSL5

性能可靠性要求高,以数据库为核心系统的业务场景,如金融、电商、政务和大中型互联网业务等。PSL4(PolarStore Level 4)PolarDB 全新推出的存储类型,采用阿里巴巴自研的 硬件压缩盘(Smart-SSD)技术,在物理SSD磁盘层面压缩、解...

块存储概述

云盘类型 特点 应用场景 计费 SSD云盘 高随机读写性能可靠性 I/O密集型应用 中小型关系数据库和NoSQL数据库 云盘容量费 高效云盘 高性价比 高可靠性 开发与测试业务 做为系统盘 云盘容量费 普通云盘 高性价比 成本较低,适用于对存储...

搭建高性能网络ACK集群

阿里云托管版容器服务ACK集群,支持自研的Terway网络插件,该插件可以有效减少因容器而引入的网络性能下降,可以基本达到服务器之间直接通信的网络性能。本最佳实践主要是一个性能测试方面的实践,指导客户进行POC测试等。解决问题 Pod之间...

实践教程概览

混合云渲染最佳实践 以Deadline软件为例,介绍在混合云环境下如何通过E-HPC及其文件缓存机制,借助云上弹性资源,构建云上云下一体化的高性能、高可靠性和可扩展的渲染服务。集群配置 实践教程 主要内容 使用E-HPC集群调度器插件 E-HPC提供...

功能特性

性能集合通信库ACCL 灵骏支持高性能集合通信库ACCL(Alibaba Collective Communication Library),结合硬件(例如:网络交换机),对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。在AI集群层面,通讯的碰撞是计算延迟的主要来源...

自建虚拟化桌面架构迁移至DDH

本教程针对自建虚拟化桌面架构迁移至专有宿主机DDH(Dedicated Host),以及有虚拟化桌面架构需求的客户,利用云上灵活性、可扩展性等优势,构建云上高可靠、高性能、高安全的远程桌面服务。方案优势 满足客户虚拟桌面基础架构VDI(Virtual...

建立gRPC连接

gRPC是一个开源高性能RPC框架,基于HTTP2协议设计开发,使用Protocol Buffers(protobuf)序列化技术对数据进行序列化传输,为开发者提供了一种跨语言、跨平台的服务间通信方式,开发者在客户端上可以像调用本地程序一样调用远程服务。...

网络优化

云企业网通过 转发路由器 TR(TransitRouter)在跨地域专有网络之间,专有网络与本地数据中心间搭建私网通信通道,支持在地域内定义灵活的互通、隔离、引流策略,帮助您打造一张灵活、可靠、大规模的企业级云上网络。企业版转发路由器实例...

NLB助力EMQ构建高性能企业级MQTT物联网接入平台

EMQ使用NLB实现亿级设备的并发管理,构建高性能、高可靠、低成本的企业级MQTT物联网接入平台。客户简介 EMQ是一家全球领先的物联网(IoT)消息中间件提供商和技术解决方案提供商。公司总部位于中国上海,专注于为企业和开发者提供高性能、...

PAI灵骏智算服务概述

PAI灵骏 是一种大规模高密度计算服务,全称“PAI灵骏智算服务”,提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏 主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景,适用于自动...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

磁盘

磁盘即为云服务器 ECS 提供的数据块级别的块存储产品,具有低时延、高性能、持久性、高可靠等特点。磁盘类型 根据性能分类,磁盘分为以下几类:ESSD 云盘:基于新一代分布式块存储架构的超高性能云盘产品。更多详情,请参见 ESSD云盘。SSD ...

概述

阿里云提供针对各种存储资源(块、文件和对象)的低成本、高可靠、高可用的存储服务,涵盖数据备份、归档、容灾等场景。本文介绍阿里云各类存储服务及特性的适用场景、性能、安全、接口和费用模型等,帮助您选择最适合您业务场景和需求的云...

网络资源

网络资源还需要提供高带宽、低延迟和稳定的网络连接,以确保节点之间的通信和数据传输的效率和可靠性。网络资源是流量入口和数据交互的基础设施,常见的网络资源风险点如下:网络带宽不足 指网络连接的带宽无法满足系统或应用程序的需求,...

什么是云盘

云盘是阿里云为边缘节点服务ENS提供的数据块级别的块存储产品,具有低时延、高性能、持久性、高可靠等特点。云盘采用分布式三副本机制,为ENS实例提供不低于99.9999%的数据可靠性保证。云盘分类 云盘根据性能分为高效云盘和全闪云盘;根据...

应用场景

SOFAStack 微服务具有高性能、高可靠、高可用的特点,适用于以下应用场景。传统应用微服务改造 通过微服务产品将传统金融业务系统拆分为模块化、标准化、松耦合、可插拔、可扩展的微服务架构,可缩短产品面世周期,快速上架,抢占市场先机...

什么是高速通道

阿里云高速通道(Express Connect)可在本地数据中心IDC(Internet Data Center)和云上专有网络VPC(Virtual Private Cloud)间建立高速、稳定、安全的私网通信。高速通道的物理专线数据传输过程可信可控,避免网络质量不稳定问题,同时可...

阿里云电子政务云产品全家福

阿里云电子政务云平台价格是华北2公共云同等配置的2倍 云数据库 Memcache 版 云数据库Memcache版(ApsaraDB for Memcache)是一种高性能、高可靠、可平滑扩容的分布式内存数据库服务。基于飞天分布式系统及高性能存储,并提供了双机热备、...

云盘存储卷概述

SSD云盘:具备稳定的高随机读写性能、高可靠性的高性能云盘产品。建议在I/O密集型应用、中小型关系数据库和NoSQL数据库等场景中使用。高效云盘:具备高性价比、中等随机读写性能、高可靠性的云盘产品。建议在开发与测试业务和系统盘等场景...

共享内存通信(SMC)使用说明

Alibaba Cloud Linux 3提供的共享内存通信SMC(Shared Memory Communication)是一种兼容socket层、使用共享内存技术实现的高性能内核网络协议栈。根据共享内存技术的不同,SMC又可以细分为基于Internal Shared Memory(ISM)技术的SMC ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 边缘网络加速 云数据库 Redis 版 对象存储 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用