全部产品
云市场

集谛

更新时间:2018-12-20 11:03:31

弹性高性能计算E-HPC的集谛是针对E-HPC集群提供的的性能监控与性能剖析平台,您可以通过 集谛完成监控集群性能指标、查看集群性能历史记录、分析进程级的性能热点等操作。

说明:若您尚未拥有E-HPC集群,请先创建集群

进入集谛界面

进入E-HPC管理控制台, 单击左侧栏的集谛标签,可进入集谛界面。

集谛主要包含四个主要功能:性能大盘、节点性能、进程性能和性能剖析。

性能大盘

性能大盘界面主要呈现三部分内容:集群基本信息、集群节点性能热力图、操作栏。如下图所示:

metrics_view

  • 顶部是集群名称和集群ID;
  • 左侧是集群基本信息,包含计算节点数量、资源配置信息(CPU、内存容量、GPU数)。
  • 中间是节点性能热力图,颜色越深代表该指标的负载越高。单击节点,该节点将以蓝色边框显示,此时单击节点按钮将直接进入该节点的性能视图。
  • 右侧是操作栏中,单击 节点进程剖析 按钮可直接跳转到节点性能、进程性能和性能剖析界面。
  • 右上角设置按钮用于设置大盘展示的性能指标,目前可选择的指标为:CPU使用率、内存使用率、网络使用率、磁盘吞吐率和磁盘使用率,最多可同时选择3个指标展示。

节点性能

节点性能界面可提供用户查询集群下指定节点各项指标的功能。

查询操作方法:
  • 在左侧选择集群与节点(可多选),点击右侧指标选择按钮选择需要显示的节点性能指标(可多选),点击 时间段选择按钮选择需要查询的时间段,集谛将会以图表方式呈现指定节点的历史性能信息。

  • 也可以通过单击“选择作业”下拉框,选择之前从E-HPC控制台提交的作业,集谛会自动列出作业关联的节点和运行起止时间,以方便查询具体作业的性能信息。然后通过点击右侧指标选择按钮选择需要显示的节点性能指标,点 击 时间段选择按钮选择需要查询的时间段。

nodes_metrics

如上图所展示,为作业3.scheduler下4个计算节点的性能信息,包含CPU使用率、内存使用率、CPU user 三项指标。

其次,除了选择按节点维度展示性能数据外,也是可选择按指标维度展示性能数据。

  • 按节点维度展示:每个子图展示的是一个节点的性能数据,不同的指标显示为不同的曲线;
  • 按指标维度展示时:每个子图展示的是一个指标的性能数据,不同的节点显示为不同的曲线。

进程性能

进程性能界面可提供用户 查询/分析 单个节点的进程级性能数据的功能。

查询操作方法:
  • 在左侧选择集群并指定节点,右侧图表中将会展示出一个时间段内Top 5进程CPU占用率,鼠标移动时会在图表下方显示具体时间点的Top5进程信息。
  • 也可以单击“选择作业”下拉框,选择之前从E-HPC控制台提交的作业,集谛会自动列出作业关联的节点和运行起止时间,以方便查询具体作业的进程性能信息。

process_metrics

如上图所展示,是作业1.scheduler,计算节点名为compute0的进程性能数据,可以看到节点正在执行LAMMPS计算任务,进程lmp的CPU占用最高,达到98%以上。本示例中作业脚本选择了2核的配置(select=20:ncpus=2:mpiprocs=2),故而存在两个lmp进程,其CPU占用率总和接近100%。

  • 单击图表后,图表上方将出现5个启动剖析的按钮,分别对应单击时间点的Top5进程ID,然后点击需要启动进程,接着会弹出性能剖析参数设置框,按照自己需要设置就可以,单击确认后启动剖析,E-HPC将在该节点上剖析该进程的函数级运行信息,具体的剖析结果将在性能剖析界面查询显示。

start_metrics

性能剖析

性能剖析界面可提供查询、展示、下载剖析结果的功能。

左侧下拉框选择集群将会自动列出该集群上曾经进行过的剖析记录,每项记录都可展开查看详细信息。单击详细信息内的“查看”按钮,将会显示性能分析的火焰图。可以查看函数级的运行信息,分析性能热点函数,为具体的性能优化提供参考。

result_metrics