ACS使用PPU常见问题-容器计算服务(ACS)-阿里云帮助中心

本文介绍在ACS中使用PPU的常见问题。

ACS GPU-HPN POD如何挂载智算版CPFS？

详细内容，请参见使用CPFS静态存储卷。

ACS CPU POD如何挂载智算版CPFS？

按量CPU Pod挂载CPFS与GPU-HPN Pod挂载CPFS的方式不同，详细内容请参见ACS CPU Pod挂载CPFS。

如何获取ACS GPU-HPN POD的stdout和stderr输出？

详细内容，请参见获取GPU-HPN Pod的标准输出和错误输出。

如何直接获取GPU Prometheus指标？

推荐通过ACS大盘获取指标。

如果需要采集数据可以通过cadvisor方式：

curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM
或者 kubectl get --raw "/api/v1/nodes/<your node name>/proxy/metrics/cadvisor"

详细内容，请参见采集ACS集群的容器监控Prometheus Metrics指标。

如何配置NUMA亲和性？

ACS上默认支持NUMA亲和，GPU、CPU、内存与NUMA都是亲和绑定的，无需单独设置。其中GPU-HPN的虚拟节点下亲和策略是best-effort，在GPU下的亲和策略为restrict。

开通ACS集群使用PPU后都涉及哪些费用，如何节省成本？

ACS集群不收取集群管理费，在ACS中使用PPU资源的费用包含集群所选配置费用和PPU算力资源费用。关于计费的详细说明，请参见计费说明。

集群所选配置费用：包括负载均衡 - API Server使用量计费、NAT网关、与NAT网关绑定的EIP的保有费用和公网访问流量费用、日志服务（SLS）、模型存储用的NAS存储费用。这部分费用为按使用时长或按使用量计费，在删除ACS集群时可以选择删除这些关联资源。
PPU算力资源费用：包括启动模型服务的容器占用的PPU卡、CPU和内存资源费用。计费时长为实际运行时长，从下载容器镜像（Pending状态）开始至实例停止运行（进入Succeeded或Failed状态）。可以将无状态工作负载伸缩成0个副本数来快速删除容器，设置成1或更多副本数来快速启动容器，以最大程度节省成本。

如何设置公网推理服务的访问控制？

本文中的推理服务是通过LoadBalancer类型的Service来实现的，该LoadBalancer会对应一个绑定公网IP地址的SLB实例。

请参考为负载均衡配置访问控制策略组，为对应SLB实例的监听设置访问控制，访问控制方式支持IP白名单、黑名单功能。

如何提升模型下载速度？

默认情况下，ACS集群创建的NAT网关绑定的EIP的带宽是100 Mbps。可参考以下操作，提升带宽峰值，提高模型下载速度。

进入公网NAT网关控制台，选择对应实例后，点击绑定的弹性公网IP页签。
点击实例ID进入弹性公网IP的实例信息页签。
点击右上角更多操作 > 变配，然后将带宽峰值提升至200 Mbps，点击立即购买。该操作不涉及计费变化。
如果模型较大，可为将该EIP加入共享带宽，共享带宽的速率可提升至2000 Mbps。该操作涉及费用变化，请仔细阅读费用说明。

ACS集群中利用存储卷配置模型Checkpoint和Dataset

登录NAS文件系统控制台，购买文件存储系统NAS（购买选择VPC时需要选择和ACS集群同一VPC，否则无法正常连接NAS）。
在容器计算服务控制台页面创建存储声明PVC。
1. 在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择存储 > 存储声明。
2. 选择上文中任务所在的命名空间，点击创建。
3. 选择NAS、使用挂载点域名创建。
  确保存储声明名称与上文任务YAML中claimName一致，且挂载点域名选择所购买的NAS域名。
  NAS域名获取方式：点击购买的NAS，选择挂载使用，复制挂载点地址。点击创建。
将模型Checkpoint和dataset拷贝至NAS中，NAS中的文件路径应与YAML的subPath相同。
购买同一VPC下的ECS。
1. 将NAS挂载在ECS的目录下（以挂载在/mnt目录为例）。
2. NAS挂载命令：点击购买的NAS，选择挂载使用，复制挂载命令。
3. 将模型Checkpoint和数据集拷贝到NAS中即ECS的/mnt目录下（Checkpoint：/mnt/shared/public/model_configs/ssd 数据集： /mnt/shared/public/dataset/coco）。下载模型Checkpoint，解压后将model_configs/ssd中的内容拷贝到/mnt/shared/public/model_configs/ssd下，下载数据集文件，解压后datasets/coco/中的内容拷贝到/mnt/shared/public/dataset/coco。
SSD模型示例数据集和模型。
镜像中不包含模型训练所需的Checkpoint文件和数据集，需要用户通过volume方式自行挂载到Pod中。
示例YAML文件中的mountPath分别为：
1. /opt/ljperf/benchmark/models/mmdetection/model_configs/ssd/ 是ssd模型Checkpoint文件。
2. /opt/ljperf/benchmark/models/mmdetection/data/coco是ssd模型训练时所需使用的数据集。
  args中包含了启动模型训练的命令，核心为ljperf benchmark --model cv/ssd通过该命令可以快速启动镜像中已内置好的benchmark模型，cv类模型目前在24.09镜像中支持 cv/ssd, cv/mask_rcnn, cv/fcn, cv/mask2former等几种

如何提升ACS默认配额

当前ACS默认每个用户可以创建最多3个集群，最多可以购买512卡GPU-HPN实例或512卡GPU实例。

如需提升该额度，请按照如下操作。

登录配额中心控制台，选择容器服务Kubernetes版。
在通用配额列表页面搜索ACS集群总数，单击申请进行调整（申请流程一般会在24小时内完成处理）。
在通用配额列表标题右侧选择容器计算服务，切换集群所属的地域。在列表中选择GPU可使用总卡数上限（HPN）进行申请操作。