AI Infra观测

AI Infra观测通过动态注入GPU Profiling采集AI作业运行过程中的算子、调度以及Kernel函数等信息进行综合分析,以实现零侵入、高灵活性和低开销的AI观测作业。

使用限制

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 操作系统限制

    架构

    操作系统

    x86架构

    • Alibaba Cloud Linux 2/3

    • CentOS 7.6及以上版本

    • Anolis OS 8.4以上版本

    ARM架构

    Alibaba Cloud Linux 3

  • ECS实例已配备GPU。

应用场景

本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。

  • 在您完成AI场景的部署后发生故障。

  • AI的处理速度不如预期。

  • 检查当前服务器的瓶颈,以确定是否某个算子耗时较长。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户。具体操作,请参见RAM用户授权

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

操作步骤

  1. 登录操作系统控制台

  2. 为目标ECS实例安装SysOM。具体操作,请参见安装组件

  3. 在左侧导航栏,选择系统观测 > AI Infra观测

  4. 选择或输入条件,单击开始分析

    image

    • 参数说明

      • 实例ID:选择该账号下已纳管的实例ID。

        说明

        该实例应配备GPU,并正在运行AI作业。

      • AI作业ID:与AI作业进程名选择一个填写。同时支持分析多个AI进程,PID之间以,分隔。

      • AI作业进程名:与AI作业ID选择一个填写。同时支持分析多个AI进程,进程名之间以,分隔。

      • 分析模式:目前只支持Duration模式

      • 分析时长:以毫秒为单位,目前支持1000毫秒~15000毫秒的分析。

    • 执行过程

      发起AI作业分析后,控制台会在分析记录页面增加一条分析记录,如下图所示。

      image.png

  5. 分析记录区域,单击查看报告

结果分析说明

  • 分析建议

    本次AI作业分析建议,如下图所示。

    image.png

  • CPU/GPU Tracing分析

    设备信息、GPU利用率和GPU Kernel函数调用时间统计,如下图所示。

    image.png

  • GPU Kernel分析

    Tensor Cores使用时间统计、GPU内核函数调用时间统计图和GPU内核函数调用时间统计表。

    image.png

  • CPU/GPU Tracing分析

    进程函数调用关系热点图,如下图所示。

    lQLPKGm49fflmGnNBXrNCeewNH0LvOQfkGkHcjD75k8JAQ_2535_1402