cuda-profiling镜像包含CUDA以及GPU性能探测和分析工具ecos,旨在简化开发者在容器化环境中对基于CUDA的应用程序进行性能分析的流程。
GPU Profiling说明
在排查线上GPU性能问题时,可以开启在线GPU Profiling功能以收集详细的数据指标,并对这些信息进行人工分析,以确定根本原因。目前,ecos
的GPU Profiling能力具备以下关键特性:
无侵入探测方式:您不需要对镜像或作业代码进行任何修改,也无需更换Python或基础库(CUDA)。
灵活的开启与关闭方式:在作业运行期间,可随时按需进行开启或关闭。
更低的性能开销:支持自定义采集指标,可根据任意时长或作业关键点触发特定阶段的数据。
数据标准化输出:支持采集核函数等关键指标,并能够将数据持久化为标准化数据格式,以便在TensorBoard等平台进行展示和分析。
自定义探测逻辑:用户可基于
uBPF
自行编程探针程序,针对不同的场景可在不同位置开启不同的监控指标。
镜像列表
镜像类别 | 地址 |
cuda-profiling for cuda 12.9.0 | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.9.0-runtime-ubuntu24.04 |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.9.0-runtime-cudnn9-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.9.0-devel-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.9.0-devel-cudnn9-ubuntu24.04 | |
cuda-profiling for cuda 12.8.1 | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.1-runtime-ubuntu24.04 |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.1-runtime-cudnn9-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.1-devel-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.1-devel-cudnn9-ubuntu24.04 | |
cuda-profiling for cuda 12.8.0 | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.0-runtime-ubuntu24.04 |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.0-runtime-cudnn9-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.0-devel-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.8.0-devel-cudnn9-ubuntu24.04 | |
cuda-profiling for cuda 12.6.3 | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-runtime-py310-alinux3.2104 |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-runtime-cudnn9-py310-alinux3.2104 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-devel-py310-alinux3.2104 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-devel-cudnn9-py310-alinux3.2104 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-runtime-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-runtime-cudnn9-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-devel-ubuntu24.04 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.6.3-devel-cudnn9-ubuntu24.04 | |
cuda-profiling for cuda 12.1.1 | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.1.1-runtime-py310-alinux3.2104 |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.1.1-runtime-cudnn9-py310-alinux3.2104 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.1.1-devel-py310-alinux3.2104 | |
ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/cuda-profiling:1.2.2-cuda12.1.1-devel-cudnn9-py310-alinux3.2104 |
镜像内容
cuda-profiling:1.2.2-cuda12.9.0-runtime-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-9 | 12.9.37-1 |
cuda-cupti-12-9 | 12.9.19-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.9.0-runtime-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-9 | 12.9.37-1 |
cuda-cupti-12-9 | 12.9.19-1 | |
libcudnn9-cuda-12 | 9.9.0.52-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.9.0-devel-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-9 | 12.9.37-1 |
cuda-cudart-dev-12-9 | 12.9.19-1 | |
cuda-cupti-12-9 | 12.9.37-1 | |
cuda-cupti-dev-12-9 | 12.9.19-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.9.0-devel-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-9 | 12.9.37-1 |
cuda-cudart-dev-12-9 | 12.9.19-1 | |
cuda-cupti-12-9 | 12.9.37-1 | |
cuda-cupti-dev-12-9 | 12.9.19-1 | |
libcudnn9-cuda-12 | 9.9.0.52-1 | |
libcudnn9-dev-cuda-12 | 9.9.0.52-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.1-runtime-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.90-1 |
cuda-cupti-12-8 | 12.8.90-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.1-runtime-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.90-1 |
cuda-cupti-12-8 | 12.8.90-1 | |
libcudnn9-cuda-12 | 9.8.0.87-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.1-devel-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.90-1 |
cuda-cudart-dev-12-8 | 12.8.90-1 | |
cuda-cupti-12-8 | 12.8.90-1 | |
cuda-cupti-dev-12-8 | 12.8.90-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.1-devel-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.90-1 |
cuda-cudart-dev-12-8 | 12.8.90-1 | |
cuda-cupti-12-8 | 12.8.90-1 | |
cuda-cupti-dev-12-8 | 12.8.90-1 | |
libcudnn9-cuda-12 | 9.8.0.87-1 | |
libcudnn9-dev-cuda-12 | 9.8.0.87-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.0-runtime-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.57-1 |
cuda-cupti-12-8 | 12.8.57-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.0-runtime-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.57-1 |
cuda-cupti-12-8 | 12.8.57-1 | |
libcudnn9-cuda-12 | 9.7.0.66-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.0-devel-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.57-1 |
cuda-cudart-dev-12-8 | 12.8.57-1 | |
cuda-cupti-12-8 | 12.8.57-1 | |
cuda-cupti-dev-12-8 | 12.8.57-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.8.0-devel-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-8 | 12.8.57-1 |
cuda-cudart-dev-12-8 | 12.8.57-1 | |
cuda-cupti-12-8 | 12.8.57-1 | |
cuda-cupti-dev-12-8 | 12.8.57-1 | |
libcudnn9-cuda-12 | 9.7.0.66-1 | |
libcudnn9-dev-cuda-12 | 9.7.0.66-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-runtime-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinux3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cupti-12-6 | 12.6.80-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-runtime-cudnn9-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinux3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cupti-12-6 | 12.6.80-1 | |
libcudnn9-cuda-12 | 9.6.0.74-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-devel-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinux3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cudart-dev-12-6 | 12.6.77-1 | |
cuda-cupti-12-6 | 12.6.80-1 | |
cuda-cupti-dev-12-6 | 12.6.80-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-devel-cudnn9-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinux3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cudart-dev-12-6 | 12.6.77-1 | |
cuda-cupti-12-6 | 12.6.80-1 | |
cuda-cupti-dev-12-6 | 12.6.80-1 | |
libcudnn9-cuda-12 | 9.6.0.74-1 | |
libcudnn9-dev-cuda-12 | 9.6.0.74-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-runtime-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cupti-12-6 | 12.6.80-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-runtime-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cupti-12-6 | 12.6.80-1 | |
libcudnn9-cuda-12 | 9.6.0.74-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-devel-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cudart-dev-12-6 | 12.6.77-1 | |
cuda-cupti-12-6 | 12.6.80-1 | |
cuda-cupti-dev-12-6 | 12.6.80-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.6.3-devel-cudnn9-ubuntu24.04
类别 | 组件 | 版本 |
BaseOS | Ubuntu | 24.04 |
系统组件 | Python3 | 3.12.7 |
CUDA库 | cuda-cudart-12-6 | 12.6.77-1 |
cuda-cudart-dev-12-6 | 12.6.77-1 | |
cuda-cupti-12-6 | 12.6.80-1 | |
cuda-cupti-dev-12-6 | 12.6.80-1 | |
libcudnn9-cuda-12 | 9.6.0.74-1 | |
libcudnn9-dev-cuda-12 | 9.6.0.74-1 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.1.1-runtime-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinu3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-1 | 12.1.105 |
cuda-cupti-12-1 | 12.1.105 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.1.1-runtime-cudnn9-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinu3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-1 | 12.1.105 |
cuda-cupti-12-1 | 12.1.105 | |
libcudnn9 | 9.2.1.18 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.1.1-devel-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinu3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-1 | 12.1.105 |
cuda-cudart-devel-12-1 | 12.1.105 | |
cuda-cupti-12-1 | 12.1.105 | |
运行组件 | ecos | 1.2.2 |
cuda-profiling:1.2.2-cuda12.1.1-devel-cudnn9-py310-alinux3.2104
类别 | 组件 | 版本 |
BaseOS | Alinu3 | 3.2104 |
系统组件 | Python3 | 3.10.3 |
CUDA库 | cuda-cudart-12-1 | 12.1.105 |
cuda-cudart-devel-12-1 | 12.1.105 | |
cuda-cupti-12-1 | 12.1.105 | |
libcudnn9 | 9.2.1.18 | |
libcudnn9-devel | 9.2.1.18 | |
运行组件 | ecos | 1.2.2 |
镜像运行要求
cuda-profiling for cuda12.6.3系列镜像需要nvidia-driver版本不低于560,并且与nvidia-driver的R470,R535和R550版本兼容。
cuda-profiling for cuda12.1.1系列镜像需要nvidia-drive版本不低于525,兼容nvidia-driver R470。
cuda-profiling for cuda 12.8.0镜像需要nvidia-driver版本不低于565,并且与nvidia-driver的R470、R535、R550和R560版本兼容。
cuda-profiling for cuda 12.8.1镜像需要nvidia-driver版本不低于570,并且与nvidia-driver的R470、R535、R550、R560和R565版本兼容。
cuda-profiling for cuda 12.9.0系列镜像需要nvidia-driver版本不低于575,并且与nvidia-driver的R470、R535、R550、R560、R565和R570版本兼容。
重要特性
提供了无侵入、按需启用的GPU性能分析功能的ecos GPU性能分析工具,同时支持数据持久化,并可在TensorBoard中进行展示与分析。
GPU Profiling工具
ecos
使用方式可以通过ecos --help
获取。
更新记录
2025.5 发布cuda-profiling 1.2.2 for cuda 12.9.0。
2025.4 发布cuda-profiling 1.2.2 for cuda 12.8.1。
2025.2 发布基于Alinux3.2104的cuda-profiling 1.2.2 for cuda 12.6.3镜像。
2025.2 发布cuda-profiling 1.2.2 for cuda 12.8.0。
2025.1 发布cuda-profiling 1.2.2 for cuda 12.1.1和cuda 12.6.3。