ACS使用PPU常见问题

更新时间:
复制为 MD 格式

本文介绍在ACS中使用PPU的常见问题。

ACS GPU-HPN POD如何挂载智算版CPFS?

详细内容,请参见使用CPFS静态存储卷

ACS CPU POD如何挂载智算版CPFS?

按量CPU Pod挂载CPFSGPU-HPN Pod挂载CPFS的方式不同,详细内容请参见ACS CPU Pod挂载CPFS

如何获取ACS GPU-HPN PODstdoutstderr输出?

详细内容,请参见获取GPU-HPN Pod的标准输出和错误输出

如何直接获取GPU Prometheus指标?

推荐通过ACS大盘获取指标

如果需要采集数据可以通过cadvisor方式:

  • curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM

  • 或者 kubectl get --raw "/api/v1/nodes/<your node name>/proxy/metrics/cadvisor"

详细内容,请参见采集ACS集群的容器监控Prometheus Metrics指标

如何配置NUMA亲和性?

ACS上默认支持NUMA亲和,GPU、CPU、内存与NUMA都是亲和绑定的,无需单独设置。其中GPU-HPN的虚拟节点下亲和策略是best-effort,在GPU下的亲和策略为restrict。

开通ACS集群使用PPU后都涉及哪些费用,如何节省成本?

ACS集群不收取集群管理费,在ACS中使用PPU资源的费用包含集群所选配置费用和PPU算力资源费用。关于计费的详细说明,请参见计费说明

  • 集群所选配置费用:包括负载均衡 - API Server使用量计费、NAT网关、与NAT网关绑定的EIP的保有费用和公网访问流量费用、日志服务(SLS)、模型存储用的NAS存储费用。这部分费用为按使用时长或按使用量计费,在删除ACS集群时可以选择删除这些关联资源。

    image

  • PPU算力资源费用:包括启动模型服务的容器占用的PPU卡、CPU和内存资源费用。计费时长为实际运行时长,从下载容器镜像(Pending状态)开始至实例停止运行(进入SucceededFailed状态)。可以将无状态工作负载伸缩成0个副本数来快速删除容器,设置成1或更多副本数来快速启动容器,以最大程度节省成本。

    image

如何设置公网推理服务的访问控制?

本文中的推理服务是通过LoadBalancer类型的Service来实现的,该LoadBalancer会对应一个绑定公网IP地址的SLB实例。

请参考为负载均衡配置访问控制策略组,为对应SLB实例的监听设置访问控制,访问控制方式支持IP白名单、黑名单功能。

如何提升模型下载速度?

默认情况下,ACS集群创建的NAT网关绑定的EIP的带宽是100 Mbps。可参考以下操作,提升带宽峰值,提高模型下载速度。

  1. 进入公网NAT网关控制台,选择对应实例后,点击绑定的弹性公网IP页签。

  2. 点击实例ID进入弹性公网IP的实例信息页签。

    image

  3. 点击右上角更多操作 > 变配,然后将带宽峰值提升至200 Mbps,点击立即购买。该操作不涉及计费变化。

    image

  4. 如果模型较大,可为将该EIP加入共享带宽,共享带宽的速率可提升至2000 Mbps。该操作涉及费用变化,请仔细阅读费用说明。

    image

ACS集群中利用存储卷配置模型CheckpointDataset

  1. 登录NAS文件系统控制台,购买文件存储系统NAS(购买选择VPC时需要选择和ACS集群同一VPC,否则无法正常连接NAS)。

  2. 容器计算服务控制台页面创建存储声明PVC。

    1. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择存储 > 存储声明

    2. 选择上文中任务所在的命名空间,点击创建

    3. 选择NAS、使用挂载点域名创建。

      确保存储声明名称与上文任务YAMLclaimName一致,且挂载点域名选择所购买的NAS域名。

      NAS域名获取方式:点击购买的NAS,选择挂载使用,复制挂载点地址。点击创建。

  3. 将模型Checkpointdataset拷贝至NAS中,NAS中的文件路径应与YAMLsubPath相同。

  4. 购买同一VPC下的ECS。

    1. NAS挂载在ECS的目录下(以挂载在/mnt目录为例)。

    2. NAS挂载命令:点击购买的NAS,选择挂载使用,复制挂载命令。

    3. 将模型Checkpoint和数据集拷贝到NAS中即ECS的/mnt目录下(Checkpoint:/mnt/shared/public/model_configs/ssd 数据集: /mnt/shared/public/dataset/coco)。下载模型Checkpoint,解压后将model_configs/ssd中的内容拷贝到/mnt/shared/public/model_configs/ssd下,下载数据集文件,解压后datasets/coco/中的内容拷贝到/mnt/shared/public/dataset/coco。

  5. SSD模型示例数据集和模型。

    镜像中不包含模型训练所需的Checkpoint文件和数据集,需要用户通过volume方式自行挂载到Pod中。

    示例YAML文件中的mountPath分别为:

    1. /opt/ljperf/benchmark/models/mmdetection/model_configs/ssd/ssd模型Checkpoint文件。

    2. /opt/ljperf/benchmark/models/mmdetection/data/cocossd模型训练时所需使用的数据集。

      args中包含了启动模型训练的命令,核心为ljperf benchmark --model cv/ssd通过该命令可以快速启动镜像中已内置好的benchmark模型,cv类模型目前在24.09镜像中支持 cv/ssd, cv/mask_rcnn, cv/fcn, cv/mask2former等几种

如何提升ACS默认配额

当前ACS默认每个用户可以创建最多3个集群,最多可以购买512GPU-HPN实例或512GPU实例。

如需提升该额度,请按照如下操作。

  1. 登录配额中心控制台,选择容器服务Kubernetes

  2. 通用配额列表页面搜索ACS集群总数,单击申请进行调整(申请流程一般会在24小时内完成处理)。

  3. 通用配额列表标题右侧选择容器计算服务,切换集群所属的地域。在列表中选择GPU可使用总卡数上限(HPN)进行申请操作。