通过查看性能剖析,您能够深入了解集群资源使用情况,识别并解决资源不均衡问题,优化作业调度,快速定位性能瓶颈,实现作业性能调优,以及进行成本效益分析等,为资源规划和系统优化提供决策支持。本文介绍如何在E-HPC Portal中查看已提交作业的性能剖析。
前提条件
查看MPI类型性能剖析前,您需满足以下条件:
仅支持调度器为SLURM的集群。
已通过submitter应用模板提交过开启MPI性能剖析的作业任务。具体操作,请参见通过submitter提交作业。
任务状态处于已完成。
操作步骤
打开并登录E-HPC Portal。
具体操作,请参见登录E-HPC Portal。
在顶部导航栏,选择性能管理,进入性能管理页面。
(可选)在性能剖析筛选区域,您可以设置以下参数筛选性能剖析任务。
参数
说明
状态
支持选择剖析状态为准备中、运行中、已完成、异常。
类型
支持选择MPI类型。
找到目标任务后,在左侧单击按钮,以查看性能剖析详情信息。
MPI类型
您可以查询该次作业性能剖析的基础信息,包括用户、状态、开始时间、执行命令等,以及系统统计的高级参数信息。具体参数说明如下:
参数项
说明
MPI Time
表示每个进程中多线程时间(mtime)与用户态时间(utime)的占比。若占比超过30%,则应用程序可能属于MPI通信密集型,这可能是由于MPI通信不均衡、程序通信模式或MPI通信库引起的。若占比低于或等于30%,则表明MPI通信占比较低,若存在性能瓶颈,建议考虑I/O或访存分析。
MPI Imbalance
反映在多个并行进程中工作负载分配情况的指标。若实际每次rank中MPI_Wait与同步函数耗时占比超过10%,则表明应用负载在MPI Rank之间分配不均衡。若占比低于或等于10%,则表明应用负载分配较为均衡。
Communication Balance Task
通信负载均衡指标,通过展示每个rank中各种MPI函数时间数值的堆叠图来评估。
MPI Communication Time
表示MPI通信耗时的总和,通过各MPI函数时间总和数值的饼状图来展示。
Memory usage by Node
展示在MPI作业中,多节点环境下各节点的内存使用情况。
Time by rank
展示每个rank中的时间分配,包括任务实际运行时间(wtime)、用户态时间(utime)、系统态时间(stime)以及MPI时间(mtime)的具体值。
示例如下: