本文档介绍了如何在操作系统控制台中配置并使用AI火焰图功能,帮助用户分析AI应用在CPU与GPU上的性能热点。通过该功能,用户可直观查看进程的函数调用栈及时间消耗分布,定位性能瓶颈,优化AI任务执行效率。
配置开启AI火焰图
步骤一:创建配置
步骤二:激活配置
通过操作系统控制台纳管计划开启AI火焰图功能的GPU实例,并且SysOM组件的配置为之前步骤创建ai火焰图配置,点击提交后则AI火焰图功能开启成功。

开启AI火焰图后会将Sysom Agent的内存限制由默认的默认300MB,变更设置为2GB。
步骤三:AI火焰图观测
单击AI性能与诊断下的AI火焰图页面,实例选择部署AI应用的被测实例,PID选择AI应用的进程,创建时间选择计划查看热点情况时间区间,选择好后单击开始分析。

分析完成后结果如下:
CPU/GPU热力图
在图中,每一列是一秒钟的时间,每一列有50个小方格,单个小方格表示20ms,方格的颜色深浅表示筛选时间内采样事件的多少。颜色越深的部分,代表着这段时间的负载越多。两边可以拖动下方联动的时间轴,对照查看。

CPU火焰图
同进程热点追踪的进程函数调用关系热点图。

GPU火焰图
展示Python进程相关的GPU调用栈信息。

该文章对您有帮助吗?

