在大规模的AI计算应用中,需要考虑任务间的通信效率,以充分发挥GPU算力的性能。阿里云ACS算力提供了低延迟、大吞吐、高弹性的高性能RDMA(Remote Direct Memory Access)网络服务。本文为您介绍如何使用高性能网络RDMA运行应用。
功能简介
传统的TCP/IP协议一直是业界主流的网络通信协议,许多应用都是基于此构建的。然而,随着AI相关业务的蓬勃发展,应用对网络性能的需求日益增加。受限于TCP/IP的一些局限性,如拷贝开销大、协议栈处理复杂、流量控制算法复杂以及频繁的上下文切换等,TCP/IP的网络通信性能已成为应用性能提升的瓶颈。
RDMA针对这些问题提供了解决方案。与TCP/IP相比,RDMA实现了零拷贝和内核旁路等特性,避免了数据拷贝和频繁的上下文切换,从而实现了更低的延迟、更高的吞吐量和更低的CPU占用。
ACS支持在YAML中配置标签的方式,让应用运行在RDMA网络中。
...
labels:
alibabacloud.com/hpn-type: "rdma"
...
GPU型号列表
ACS支持多种GPU型号,目前支持高性能网络RDMA的GPU型号如下,具体卡型名称请提交工单咨询。
卡型 |
卡型 |
8代GPU A |
使用方式
使用以下YAML内容,创建dep-demo-hpn-gpu.yaml文件。
apiVersion: apps/v1 kind: Deployment metadata: name: dep-demo-hpn-gpu labels: app: demo-hpn-gpu spec: replicas: 1 selector: matchLabels: app: demo-hpn-gpu template: metadata: labels: app: demo-hpn-gpu alibabacloud.com/acs: "true" # 配置使用ACS算力 alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default # 指定GPU型号为example-model,请按实际情况填写 alibabacloud.com/gpu-model-series: "example-model" alibabacloud.com/hpn-type: "rdma" spec: containers: - name: demo image: registry.cn-wulanchabu.aliyuncs.com/acs/stress:v1.0.4 command: - "sleep" - "1000h" resources: requests: cpu: 128 memory: 512Gi nvidia.com/gpu: 8 limits: cpu: 128 memory: 512Gi nvidia.com/gpu: 8
部署应用。
kubectl apply -f dep-demo-hpn-gpu.yaml
查看高性能网络网卡信息。
kubectl exec -it dep-demo-hpn-gpu-xxxxx-xxx -- ifconfig | grep hpn -A 8
预期输出:
hpn0 Link encap:Ethernet HWaddr xx:xx:xx:xx:xx:xx inet6 addr: xxxx::x:xxxx:xxxx:xxx/xx Scope:Link inet6 addr: xxxx:xxx:xxx:x:x:xxxx:x:xxx/xxx Scope:Global UP BROADCAST RUNNING MULTICAST MTU:xxxx Metric:1 RX packets:0 errors:0 dropped:0 overruns:0 frame:0 TX packets:xx errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:0 (0.0 B) TX bytes:x (892.0 B)
可以看到,Pod中已经配置了高性能网卡。
该文章对您有帮助吗?
- 本页导读
- 功能简介
- GPU型号列表
- 使用方式