ACS使用PPU常见问题

更新时间:
复制为 MD 格式

本文介绍在ACS中使用PPU的常见问题和规避方案。

1. ACS GPU-HPN POD挂载智算版CPFS

详细内容,请参见使用CPFS静态存储卷

2. 按量CPU POD挂载智算版CPFS

按量CPU Pod挂载CPFSGPU-HPN Pod挂载CPFS的方式不同,详细内容请参见ACS CPU Pod挂载CPFS

3. 获取ACS GPU-HPN PODstdoutstderr输出

详细内容,请参见获取GPU-HPN Pod的标准输出和错误输出

4. 直接获取GPU prometheus指标

推荐通过ACS大盘获取指标

如果需要采集数据可以通过cadvisor方式:

  • curl 'localhost:8080/api/v1/nodes/<your node name>/proxy/metrics/cadvisor' | grep DCGM

  • 或者 kubectl get --raw /api/v1/nodes/<your node name>/proxy/metrics/cadvisor

详细内容,请参见采集指定虚拟节点的Metrics

5. NUMA亲和性

ACS上默认支持NUMA亲和,GPU、CPU、内存与NUMA都是亲和绑定的,无需单独设置。其中GPU-HPN的虚拟节点下亲和策略是best-effort,在GPU下的亲和策略为restrict。