AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。
使用限制
地域限制
本功能目前仅支持中国内地与中国香港。
操作系统限制
架构
操作系统
x86架构
Alibaba Cloud Linux 2/3
CentOS 7.6及以上版本
Anolis OS 8.4以上版本
ARM架构
Alibaba Cloud Linux 3
ECS实例已配备GPU。
应用场景
本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。
在您完成AI场景的部署后发生故障。
AI的处理速度不如预期。
检查当前服务器的瓶颈,以确定是否某个算子耗时较长。
前提条件
如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略
AliyunECSReadOnlyAccess
和AliyunSysomFullAccess
授予RAM用户。具体操作,请参见为RAM用户授权。已开通控制台权限。
首次登录操作系统控制台时,单击开通服务以开通控制台服务。
操作步骤
登录操作系统控制台。
为目标ECS实例安装SysOM。具体操作,请参见安装组件。
在左侧导航栏,选择
选择或输入条件,单击开始分析。
参数说明
实例ID:选择该账号下已纳管的实例ID。
说明该实例应配备GPU,并正在运行AI作业。
AI作业ID:与AI作业进程名选择一个填写。同时支持分析多个AI进程,PID之间以
,
分隔。AI作业进程名:与AI作业ID选择一个填写。同时支持分析多个AI进程,进程名之间以
,
分隔。分析模式:目前只支持Duration模式。
分析时长:以毫秒为单位,目前支持1000毫秒~15000毫秒的分析。
执行过程
发起AI作业分析后,控制台会在分析记录页面增加一条分析记录,如下图所示。
在分析记录区域,单击查看报告。
结果分析说明
分析建议
本次AI作业分析建议,如下图所示。
CPU/GPU Tracing分析
设备信息、GPU利用率和GPU Kernel函数调用时间统计,如下图所示。
GPU Kernel分析
Tensor Cores使用时间统计、GPU内核函数调用时间统计图和GPU内核函数调用时间统计表。
CPU/GPU Tracing分析
进程函数调用关系热点图,如下图所示。