查看性能剖析

通过查看性能剖析,您能够深入了解集群资源使用情况,识别并解决资源不均衡问题,优化作业调度,快速定位性能瓶颈,实现作业性能调优,以及进行成本效益分析等,为资源规划和系统优化提供决策支持。本文介绍如何在E-HPC Portal中查看已提交作业的性能剖析。

前提条件

查看MPI类型性能剖析前,您需满足以下条件:

  • 仅支持调度器为SLURM的集群。

  • 已通过submitter应用模板提交过开启MPI性能剖析的作业任务。具体操作,请参见通过submitter提交作业

  • 任务状态处于已完成

操作步骤

  1. 打开并登录E-HPC Portal。

    具体操作,请参见登录E-HPC Portal

  2. 在顶部导航栏,选择性能管理,进入性能管理页面。

    image

  3. (可选)在性能剖析筛选区域,您可以设置以下参数筛选性能剖析任务。

    参数

    说明

    状态

    支持选择剖析状态为准备中运行中已完成异常

    类型

    支持选择MPI类型。

  4. 找到目标任务后,在左侧单击image按钮,以查看性能剖析详情信息。

    MPI类型

    您可以查询该次作业性能剖析的基础信息,包括用户、状态、开始时间、执行命令等,以及系统统计的高级参数信息。具体参数说明如下:

    参数项

    说明

    MPI Time

    表示每个进程中多线程时间(mtime)与用户态时间(utime)的占比。若占比超过30%,则应用程序可能属于MPI通信密集型,这可能是由于MPI通信不均衡、程序通信模式或MPI通信库引起的。若占比低于或等于30%,则表明MPI通信占比较低,若存在性能瓶颈,建议考虑I/O或访存分析。

    MPI Imbalance

    反映在多个并行进程中工作负载分配情况的指标。若实际每次rank中MPI_Wait与同步函数耗时占比超过10%,则表明应用负载在MPI Rank之间分配不均衡。若占比低于或等于10%,则表明应用负载分配较为均衡。

    Communication Balance Task

    通信负载均衡指标,通过展示每个rank中各种MPI函数时间数值的堆叠图来评估。

    MPI Communication Time

    表示MPI通信耗时的总和,通过各MPI函数时间总和数值的饼状图来展示。

    Memory usage by Node

    展示在MPI作业中,多节点环境下各节点的内存使用情况。

    Time by rank

    展示每个rank中的时间分配,包括任务实际运行时间(wtime)、用户态时间(utime)、系统态时间(stime)以及MPI时间(mtime)的具体值。

    示例如下:

    image