GPU ECC (Error Correction Code) 是一种内存错误检测和纠正技术。ECC模式可以提高GPU计算的可靠性,但会占用部分GPU显存容量。在某些对GPU显存容量要求较高的场景下,可禁用ECC以获得更多可用显存。
注意事项
禁用GPU ECC功能需要特定账号权限,请提交工单申请开通相关权限。
需通过注解
alibabacloud.com/gpu-ecc-mode-disabled禁用GPU ECC模式。如不设置此注解或设置为false,GPU将默认启用ECC模式。关闭GPU ECC能力后,因ECC关闭造成的GPU任务中断和数据丢失,阿里云不负责任务和数据恢复。
支持禁用ECC模式的GPU型号列表
ACS支持多种GPU型号,目前支持禁用ECC模式的GPU型号以及使用约束如下。
卡型 | 计算类型(compute-class) |
G49E | gpu |
使用方式
在Pod的Annotations中添加注解alibabacloud.com/gpu-ecc-mode-disabled: "true"即可禁用GPU ECC模式。以下示例将在ACS集群中部署一个禁用GPU ECC模式的Pod。
使用以下YAML内容创建
pod-disable-gpu-ecc.yaml文件,然后执行kubectl apply -f pod-disable-gpu-ecc.yaml命令部署Pod。apiVersion: v1 kind: Pod metadata: labels: alibabacloud.com/compute-class: gpu alibabacloud.com/compute-qos: default # 指定GPU型号为G49E,请按实际支持情况填写 alibabacloud.com/gpu-model-series: G49E annotations: # 禁用ECC模式 alibabacloud.com/gpu-ecc-mode-disabled: "true" name: pod-disable-gpu-ecc namespace: default spec: containers: - command: - sleep - '3600000000' # 示例镜像中已安装GPU驱动,请将cn-hangzhou替换为实际地域 image: acs-registry-vpc.cn-hangzhou.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless imagePullPolicy: IfNotPresent name: test resources: limits: cpu: '8' ephemeral-storage: 30Gi memory: 64Gi nvidia.com/gpu: '1' requests: cpu: '8' ephemeral-storage: 30Gi memory: 64Gi nvidia.com/gpu: '1'等待应用Pod状态变为Running。
kubectl get pod | grep pod-disable-gpu-ecc预期输出:
pod-disable-gpu-ecc 1/1 Running 0 2m16s通过终端进入Pod,查看GPU ECC是否成功禁用。
nvidia-smi -q | grep "ECC Mode" -A 2预期输出:
ECC Mode Current : Disabled Pending : Disabled其中
Disabled表示GPU ECC模式已经成功禁用。
该文章对您有帮助吗?