禁用GPU ECC模式

更新时间:
复制为 MD 格式

GPU ECC (Error Correction Code) 是一种内存错误检测和纠正技术。ECC模式可以提高GPU计算的可靠性,但会占用部分GPU显存容量。在某些对GPU显存容量要求较高的场景下,可禁用ECC以获得更多可用显存。

注意事项

  1. 禁用GPU ECC功能需要特定账号权限,请提交工单申请开通相关权限。

  2. 需通过注解alibabacloud.com/gpu-ecc-mode-disabled禁用GPU ECC模式。如不设置此注解或设置为false,GPU将默认启用ECC模式。

  3. 关闭GPU ECC能力后,因ECC关闭造成的GPU任务中断和数据丢失,阿里云不负责任务和数据恢复。

支持禁用ECC模式的GPU型号列表

ACS支持多种GPU型号,目前支持禁用ECC模式的GPU型号以及使用约束如下。

卡型

计算类型(compute-class)

G49E

gpu

使用方式

PodAnnotations中添加注解alibabacloud.com/gpu-ecc-mode-disabled: "true"即可禁用GPU ECC模式。以下示例将在ACS集群中部署一个禁用GPU ECC模式的Pod。

  1. 使用以下YAML内容创建pod-disable-gpu-ecc.yaml文件,然后执行kubectl apply -f pod-disable-gpu-ecc.yaml命令部署Pod。

    apiVersion: v1
    kind: Pod
    metadata:
      labels:
        alibabacloud.com/compute-class: gpu    
        alibabacloud.com/compute-qos: default
        # 指定GPU型号为G49E,请按实际支持情况填写
        alibabacloud.com/gpu-model-series: G49E
      annotations:
        # 禁用ECC模式
        alibabacloud.com/gpu-ecc-mode-disabled: "true"
      name: pod-disable-gpu-ecc
      namespace: default
    spec:
      containers:
        - command:
            - sleep
            - '3600000000'
          # 示例镜像中已安装GPU驱动,请将cn-hangzhou替换为实际地域
          image: acs-registry-vpc.cn-hangzhou.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless
          imagePullPolicy: IfNotPresent
          name: test
          resources:
            limits:
              cpu: '8'
              ephemeral-storage: 30Gi
              memory: 64Gi
              nvidia.com/gpu: '1'
            requests:
              cpu: '8'
              ephemeral-storage: 30Gi
              memory: 64Gi
              nvidia.com/gpu: '1'
  2. 等待应用Pod状态变为Running。

    kubectl get pod | grep pod-disable-gpu-ecc

    预期输出:

    pod-disable-gpu-ecc   1/1     Running   0          2m16s
  3. 通过终端进入Pod,查看GPU ECC是否成功禁用。

    nvidia-smi -q | grep "ECC Mode" -A 2

    预期输出:

        ECC Mode
            Current                           : Disabled
            Pending                           : Disabled

    其中Disabled表示GPU ECC模式已经成功禁用。