性能分析工具Nsight

DSW 上支持使用NVIDIA Nsight性能分析工具,您可以利用该工具对应用程序进行可视化分析,定位并优化性能瓶颈。

使用限制

  • DSW实例规格:实例需配备至少一张 NVIDIA GPU,且为灵骏智算平台机型。

  • Hopper架构:非Hopper架构机型,使用Nsight前必须暂停AMPerf服务。NVIDIA硬件限制GPU性能指标一次只能由一个进程采集。

操作步骤

1. 创建DSW实例

使用符合要求的 GPU 规格创建DSW实例

2. 暂停AMPerf采集

Hopper架构(如:H20)的机型可跳过此步;非Hopper架构的机型,需先执行amperfd的命令暂停AMPerf指标采集。暂停采集之后可正常使用nsys/ncu等工具。

# 暂停AMPerf采集
/run/amperf/bin/amperfd profmetric --pause -t 600

# 恢复AMPerf采集
/run/amperf/bin/amperfd profmetric --resume
重要
  • 监控影响:在 AMPerf 暂停期间监控性能指标会缺失,该时间段内实例详情页的云监控看板指标精确性会受到影响。

  • 暂停时长:为了避免监控数据缺失时间过长,AMPerf 服务暂停请求的最长时限为 10 分钟(600秒),到期后将自动恢复采集(您也可以手动恢复)。服务恢复后,需等待 1 分钟才能再次暂停。

3. Nsight安装和使用

请参考 NVIDIA 官方文档下载、安装和使用 Nsight。

  • Nsight Compute (ncu):面向CUDA内核级性能剖析的专用工具,支持指令级执行时间、内存带宽利用率等细粒度指标分析。参考文档:Nsight Compute命令行接口指南

  • Nsight Systems (nsys):系统级性能分析套件,可捕捉完整调用栈的GPU-CPU协同执行轨迹与资源占用状态。参考文档:Nsight Systems手册

操作建议

  • 长时任务分段:对于长周期任务,建议分段执行分析以规避AMPerf暂停时长限制。

  • 及时恢复:分析完成后及时恢复AMPerf服务,确保云平台监控数据完整性。