文档

查看E-HPC的监控信息

更新时间:

通过查看集群监控信息,您可实时掌握节点、存储和作业资源的使用情况,精确优化资源配置和任务调度。同时,允许您自定义监控时间范围,并提供便捷的历史数据查询功能,助您做出明智的调整和管理决策,确保集群持续高效运行。本文介绍如何查看E-HPC的监控信息。

前提条件

  • 集群需满足以下条件:

    • 状态为运行中

    • 集群部署模式为公共云集群

    • 调度器为SLURM和PBS。

    • 集群监控组件已正常安装。

  • 如果使用RAM用户操作,请确保RAM用户具有通过控制台查看监控信息的权限。具体操作,请参见为RAM用户授权

操作步骤

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择运维管理 > 监控

  3. 根据需要,单击对应页签,以查看E-HPC的监控信息。

    说明

    当您查看节点监控、存储监控或作业监控信息时,您可以指定查询的时间范围。

    • 快速选择:可选择查看近1小时、4小时、12小时或1天的监控信息。

    • 自定义:精确选择要查询监控信息的时间范围,时间范围的起止时间点间隔最长为1天。

    有关各页签及对应监控指标详细说明,请参见监控指标说明

    image

监控指标说明

页签

说明

概览

包含计算节点总数共享存储空间作业总数平均负载四个统计信息,并可以查看所有计算节点状态及资源使用情况。

计算节点调度状态说明如下所示:

  • 空闲:节点内所有核均未被占用,表明节点的运算能力处于最大可用状态。此时,节点可以接受新的任务或作业,以充分发挥其计算能力。

  • 工作中:节点内部分核被占用,但部分核心仍然处于可用状态,能够接受新的作业。

  • 忙碌:节点内所有核被占用,无法接受新的作业。若需提交新的作业,可能会进行排队等待,直至有核心不被占用为止。

  • 离线:节点不再参与计算或任务处理,且完全不接收新的作业。

节点监控

您可以通过集群、队列两个维度进行筛选,查看以下六个可视化统计信息:

  • CPU利用率

    CPU利用率是指集群中各节点的CPU在特定时间段内被程序占用的比例。高利用率(超过80%-90%)一般意味着资源高效使用,但长期如此可能导致集群性能下降和响应变慢。低利用率(0%-30%)则可能表明资源未被充分利用,或存在性能瓶颈或任务调度问题。

  • 内存利用率

    用于反映集群中各节点的内存使用情况。为确保集群作业的顺利执行,应定期监控内存使用率,以防止因内存溢出而导致作业失败。如有必要,可通过增加内存容量或优化内存使用策略来解决相关问题。

  • 系统负载

    用于反映计算节点的工作负载情况,有助于评估集群的作业承载能力。需监控负载与节点数量的比率,当负载过高时,表明资源配置不足。可通过增加节点(扩容)或优化作业流程来改善此情况。

  • 磁盘利用率

    该指标反映磁盘存储空间的使用状况,旨在确保磁盘的可用性,避免出现过高的占用率(例如,当占用率达到100%时,无法进行写入操作)。通过清理冗余数据或扩展存储容量,可以有效应对存储压力。这一分析有助于您全面了解磁盘的使用情况,并判断是否需要进行空间清理或存储扩展。

  • 磁盘读写

    磁盘读写速率表示单位时间内数据的读取和写入字节数,以KB/s为单位。通过监控磁盘读写指标,可以有效评估集群性能,确保其高效处理计算任务。

  • 网络流量

    反映节点内通过私网进行的数据传输情况。您需要特别关注高流量时间段,以便及时发现异常情况。例如网络带宽不足,这将直接影响数据的传输效率。

存储监控

您可以查看该集群内不同文件系统下的存储监控信息,包括以下六个可视化统计信息:

  • 存储空间

    反映集群用于存储计算任务产出、临时文件和应用程序数据的文件存储NAS使用情况。为防范存储空间不足、性能衰退及数据丢失等异常情况,建议通过监控告警、定期数据清理及存储扩展等措施进行有效应对。

  • 文件数

    文件存储NAS中的文件总数,作为评估存储管理效率的关键指标,它间接反映系统健康状况和维护需求;需注意文件数量过多会增加管理复杂性并影响检索效率与性能,若超过预设阈值则需高度关注,建议定期整理存储内容,清除无用或冗余文件,以提升管理效率与系统性能。

  • IOPS

    表示该文件系统在周期内每秒平均读/写IOPS次数。单位为次/秒。

  • 延迟

    表示该文件系统在周期内每毫秒平均延迟,包括读延迟和写延迟。单位为毫秒(ms)。

  • 吞吐

    表示该文件系统在周期内每秒平均吞吐字节数,包括读吞吐和写吞吐。单位为KiB。

  • 元数据QPS

    表示该文件系统在周期内每秒平均请求元数据次数。单位为次/秒。

更多关于文件系统的存储监控指标信息,请参见性能监控性能说明FAQ

作业监控

您可以通过集群、队列、项目和用户四个维度进行筛选,查看以下六个可视化统计信息:

  • 作业数

    集群中运行的作业数量是评估集群负载的重要指标,需与可用资源相匹配,以避免因作业数量异常增高而导致的资源竞争。为此,建议优化作业调度,并剔除不必要的作业,以提升整体资源利用效率。

  • 排队作业需求总核数

    排队作业需求总核数表示完成特定任务所需的计算核心总量。在实际应用中,需将其与可用核心数进行比较,若需求高于可用核心,可能导致长时间的等待。为解决此类情况,您可以为集群增加计算核心数量或调整作业的优先级,以优化资源配置和提高效率。

  • 作业等待时长

    作业等待时长是指在集群内作业排队状态下的平均等待时间,反映了资源竞争的情况。较长的等待时间会影响整体效率,特别是在异常情况下,等待时长显著增加时,应优先调度高优先级作业以优化资源利用。

  • 运行作业使用总核数

    运行作业使用总核数指当前作业实际所占用的核心数量,该指标有助于监测资源的使用情况。需确保核心使用的有效性,以避免出现资源利用过高或过低的异常情况。针对这些问题,建议调整作业配置并合理分配资源,以提升整体运行效率。

  • 作业CPU利用率

    作业CPU利用率是指当前节点正在运行的作业对CPU资源的实际使用率。对于作业CPU利用率较低的情况,这可能表示系统存在异常,例如CPU利用率低于预期阈值。这种现象可能影响系统的整体性能,导致资源的浪费。因此,建议及时对相关作业及其计算负载进行深入分析,从而实现有效的调整与优化。

  • 作业内存利用率

    作业内存利用率是指作业实际使用核数除以作业需求核数的比例。因此您需关注作业内存的合理使用,避免出现过高的内存占用,导致内存溢出或不足等异常情况。为维护系统稳定性,您可通过优化内存配置或升配节点规格来处理相关问题。