DSW 上支持使用NVIDIA Nsight性能分析工具,您可以利用该工具对应用程序进行可视化分析,定位并优化性能瓶颈。
使用限制
DSW实例规格:实例需配备至少一张 NVIDIA GPU,且为灵骏智算平台机型。
非Hopper架构:非Hopper架构机型,使用Nsight前必须暂停AMPerf服务。NVIDIA硬件限制GPU性能指标一次只能由一个进程采集。
操作步骤
1. 创建DSW实例
使用符合要求的 GPU 规格创建DSW实例。
2. 暂停AMPerf采集
Hopper架构(如:H20)的机型可跳过此步;非Hopper架构的机型,需先执行amperfd的命令暂停AMPerf指标采集。暂停采集之后可正常使用nsys/ncu等工具。
# 暂停AMPerf采集
/run/amperf/bin/amperfd profmetric --pause -t 600
# 恢复AMPerf采集
/run/amperf/bin/amperfd profmetric --resume
重要
监控影响:在 AMPerf 暂停期间监控性能指标会缺失,该时间段内实例详情页的云监控看板指标精确性会受到影响。
暂停时长:为了避免监控数据缺失时间过长,AMPerf 服务暂停请求的最长时限为 10 分钟(600秒),到期后将自动恢复采集(您也可以手动恢复)。服务恢复后,需等待 1 分钟才能再次暂停。
3. Nsight安装和使用
请参考 NVIDIA 官方文档下载、安装和使用 Nsight。
Nsight Compute (ncu):面向CUDA内核级性能剖析的专用工具,支持指令级执行时间、内存带宽利用率等细粒度指标分析。参考文档:Nsight Compute命令行接口指南。
Nsight Systems (nsys):系统级性能分析套件,可捕捉完整调用栈的GPU-CPU协同执行轨迹与资源占用状态。参考文档:Nsight Systems手册。
操作建议:
长时任务分段:对于长周期任务,建议分段执行分析以规避AMPerf暂停时长限制。
及时恢复:分析完成后及时恢复AMPerf服务,确保云平台监控数据完整性。
该文章对您有帮助吗?