如何配置共享GPU调度节点选卡策略-容器服务 Kubernetes 版 ACK(ACK)-阿里云帮助中心

默认情况，Pod分配GPU资源的顺序为先分配完节点上的一张GPU卡，再分配其他GPU卡，避免出现GPU资源碎片。但是在有的场景中，您希望让Pod调度到节点上时，尽量分散到各个GPU卡上，避免因为某张GPU卡坏掉影响的业务过多。本文介绍如何配置共享GPU调度节点选卡策略。

前提条件

策略介绍

在共享GPU调度中，如果节点存在多张GPU卡，从节点中挑选GPU卡分配给Pod时，有两种策略可以考虑：

Binpack：默认策略，调度系统先分配完节点的一张GPU卡后，再分配节点上另一张GPU卡，避免节点出现GPU资源碎片。
Spread：调度系统会尽量将Pod分散到这个节点的各个GPU上，避免一张GPU卡坏掉后，影响的业务过多。

以下示例表示，某个节点有2张GPU卡，每张卡有15 GiB显存，Pod1申请2 GiB显存，Pod2申请3 GiB显存。

操作步骤

默认情况下，节点的选卡策略是Binpack。如果您要使用开启GPU共享调度能力的Spread策略，请按照如下操作设置。

步骤一：创建节点池

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。

在节点池页面，单击右上角的创建节点池。

在创建节点池页面，设置创建节点池的配置项，然后单击确认配置。下表仅介绍主要配置项，其余配置项请参见创建和管理节点池。

配置项	说明
实例规格	架构选择GPU云服务器，选择多个GPU实例规格。由于只有在节点有多张GPU卡的情况下，节点选卡策略才能看出效果，建议选择带有多张GPU卡机型。
期望节点数	设置节点池初始节点数量。如无需创建节点，可以填写为0。
节点标签	单击，添加两条记录：键为`ack.node.gpu.schedule`，值为`cgpu`。表示开启GPU共享调度能力，同时开启GPU显存隔离能力。键为`ack.node.gpu.placement`，值为`spread`。表示开启节点Spread选卡策略。

步骤二：提交任务

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择工作负载 > 任务。

单击页面右上角的使用YAML创建资源，将如下代码拷贝至模板区域，然后按照注释编辑YAML内容。编辑完成后，单击页面下方的创建。

展开查看YAML详细信息

apiVersion: batch/v1
kind: Job
metadata:
  name: tensorflow-mnist-spread
spec:
  parallelism: 3
  template:
    metadata:
      labels:
        app: tensorflow-mnist-spread
    spec:
      nodeSelector:
         kubernetes.io/hostname: <NODE_NAME> # 指定<NODE_NAME>为集群中某个GPU节点名称，便于观察效果，例如：cn-shanghai.192.0.2.109。
      containers:
      - name: tensorflow-mnist-spread
        image: registry.cn-beijing.aliyuncs.com/ai-samples/gpushare-sample:tensorflow-1.5
        command:
        - python
        - tensorflow-sample-code/tfjob/docker/mnist/main.py
        - --max_steps=100000
        - --data_dir=tensorflow-sample-code/data
        resources:
          limits:
            aliyun.com/gpu-mem: 4 # 总共申请4 GiB显存。
        workingDir: /root
      restartPolicy: Never

YAML文件说明如下：

该YAML定义了一个使用tensorflow mnist样例的Job。Job有3个Pod，每个Pod申请4 GiB显存。
Pod申请4 GiB显存通过在Pod resources.limits定义aliyun.com/gpu-mem: 4实现。
为了在一个节点上看到效果，YAML为Pod添加了一个NodeSelector kubernetes.io/hostname: <NODE_NAME>，用于将Pod调度到指定节点上。

步骤三：验证节点选卡策略是否为Spread

使用共享GPU调度GPU资源查询工具，查询节点GPU资源分配情况：

kubectl inspect cgpu

NAME                   IPADDRESS      GPU0(Allocated/Total)  GPU1(Allocated/Total)  GPU2(Allocated/Total)  GPU3(Allocated/Total)  GPU Memory(GiB)
cn-shanghai.192.0.2.109  192.0.2.109  4/15                   4/15                   0/15                   4/15                   12/60
--------------------------------------------------------------------------------------
Allocated/Total GPU Memory In Cluster:
12/60 (20%)

输出结果表明，3个Pod分别调度到节点的不同GPU卡上，Spread策略生效。