AI火焰图

本文档介绍了如何在操作系统控制台中配置并使用AI火焰图功能,帮助用户分析AI应用在CPUGPU上的性能热点。通过该功能,用户可直观查看进程的函数调用栈及时间消耗分布,定位性能瓶颈,优化AI任务执行效率。

配置开启AI火焰图

步骤一:创建配置

  1. 访问操作系统控制台

  2. 单击左侧导航栏组件管理,为目标ECS实例安装SysOM后,创建新的配置。

    若已安装SysOM组件,需升级组件至3.9.0及以上版本。

    image

  3. 配置名称,并勾选开启GPU火焰图功能,本文示例配置名称为ai火焰图

    image

步骤二:激活配置

通过操作系统控制台纳管计划开启AI火焰图功能的GPU实例,并且SysOM组件的配置为之前步骤创建ai火焰图配置,点击提交后则AI火焰图功能开启成功。

image

开启AI火焰图后会将Sysom Agent的内存限制由默认的默认300MB,变更设置为2GB。

步骤三:AI火焰图观测

单击AI性能与诊断下的AI火焰图页面,实例选择部署AI应用的被测实例,PID选择AI应用的进程,创建时间选择计划查看热点情况时间区间,选择好后单击开始分析

image.png

分析完成后结果如下:

  • CPU/GPU热力图

    在图中,每一列是一秒钟的时间,每一列有50个小方格,单个小方格表示20ms,方格的颜色深浅表示筛选时间内采样事件的多少。颜色越深的部分,代表着这段时间的负载越多。两边可以拖动下方联动的时间轴,对照查看。image.png

  • CPU火焰图

    同进程热点追踪的进程函数调用关系热点图。

    image.png

  • GPU火焰图

    展示Python进程相关的GPU调用栈信息。

    image.png