GPU持续剖析

更新时间:
复制为 MD 格式

本文档介绍了如何在操作系统控制台中配置并使用GPU持续剖析功能,帮助用户分析AI应用在CPUGPU上的性能热点。通过该功能,用户可直观查看进程的函数调用栈及时间消耗分布,定位性能瓶颈,优化AI任务执行效率。

配置开启GPU持续剖析

步骤一:创建配置

  1. 访问操作系统控制台

  2. 安装SysOM组件,安装方式请参考组件管理

    若已安装SysOM组件,需升级组件至3.9.0及以上版本。
  3. 单击左侧导航栏组件管理,创建新的配置。

    image

  4. 配置名称,并勾选开启GPU持续剖析,本文示例配置名称为gpu持续剖析配置。image

步骤二:激活配置

通过操作系统控制台纳管计划开启本功能的GPU实例,并且SysOM组件的配置为之前步骤创建的gpu持续剖析配置,点击提交后则GPU持续剖析开启成功。

image

开启GPU持续剖析后会将Sysom Agent的内存限制由默认的默认300MB,变更设置为2GB。

步骤三:GPU持续剖析

单击GPU性能与诊断下的GPU持续剖析页面,实例选择部署AI应用的被测实例,PID选择AI应用的进程,创建时间选择计划查看热点情况时间区间,选择好后单击开始分析

分析完成后结果如下:

  • CPU/GPU热力图

    在图中,每一列是一秒钟的时间,每一列有50个小方格,单个小方格表示20ms,方格的颜色深浅表示筛选时间内采样事件的多少。颜色越深的部分,代表着这段时间的负载越多。两边可以拖动下方联动的时间轴,对照查看。image.png

  • CPU火焰图

    同进程热点追踪的进程函数调用关系热点图。

    image.png

  • GPU火焰图

    展示Python进程相关的GPU调用栈信息。

    image.png