查看集群中节点存储作业的监控详情-弹性高性能计算-阿里云

备案控制台

输入文档关键字查找

通过查看集群监控信息，您可实时掌握节点、存储和作业资源的使用情况，精确优化资源配置和任务调度。同时，允许您自定义监控时间范围，并提供便捷的历史数据查询功能，助您做出明智的调整和管理决策，确保集群持续高效运行。本文介绍如何查看E-HPC的监控信息。

前提条件

集群需满足以下条件：
- 状态为运行中。
- 集群部署模式为公共云集群。
- 调度器为SLURM和PBS。
- 集群监控组件已正常安装。
如果使用RAM用户操作，请确保RAM用户具有通过控制台查看监控信息的权限。具体操作，请参见为RAM用户授权。

操作步骤

进入集群详情页面。
1. 登录弹性高性能计算控制台。
2. 在顶部菜单栏左上角处，选择地域。
3. 在左侧导航栏，单击集群。
4. 在集群列表页面，单击目标集群名称。
在左侧导航栏，选择运维管理 > 监控。
根据需要，单击对应页签，以查看E-HPC的监控信息。
说明
当您查看节点监控、存储监控或作业监控信息时，您可以指定查询的时间范围。
- 快速选择：可选择查看近1小时、4小时、12小时或1天的监控信息。
- 自定义：精确选择要查询监控信息的时间范围，时间范围的起止时间点间隔最长为1个月。
有关各页签及对应监控指标详细说明，请参见监控指标说明。

监控指标说明

页签	说明
概览	包含计算节点总数、共享存储空间、作业总数、平均负载四个统计信息，并可以查看所有计算节点状态及资源使用情况。计算节点调度状态说明如下所示：空闲：节点内所有核均未被占用，表明节点的运算能力处于最大可用状态。此时，节点可以接受新的任务或作业，以充分发挥其计算能力。工作中：节点内部分核被占用，但部分核心仍然处于可用状态，能够接受新的作业。忙碌：节点内所有核被占用，无法接受新的作业。若需提交新的作业，可能会进行排队等待，直至有核心不被占用为止。离线：节点不再参与计算或任务处理，且完全不接收新的作业。
节点监控	您可以通过集群、队列两个维度进行筛选，查看以下六个可视化统计信息： CPU利用率 CPU利用率是指集群中计算节点的CPU在特定时间段内被程序占用的比例。高利用率（超过80%-90%）一般意味着资源高效使用，但长期如此可能导致集群性能下降和响应变慢。低利用率（0%-30%）则可能表明资源未被充分利用，或存在性能瓶颈或任务调度问题。内存利用率用于反映集群中计算节点的内存使用情况。为确保集群作业的顺利执行，应定期监控内存使用率，以防止因内存溢出而导致作业失败。如有必要，可通过增加内存容量或优化内存使用策略来解决相关问题。系统负载用于反映计算节点的工作负载情况，有助于评估集群的作业承载能力。需监控负载与节点数量的比率，当负载过高时，表明资源配置不足。可通过增加节点（扩容）或优化作业流程来改善此情况。磁盘利用率该指标反映磁盘存储空间的使用状况，旨在确保磁盘的可用性，避免出现过高的占用率（例如，当占用率达到100%时，无法进行写入操作）。通过清理冗余数据或扩展存储容量，可以有效应对存储压力。这一分析有助于您全面了解磁盘的使用情况，并判断是否需要进行空间清理或存储扩展。磁盘读写磁盘读写速率表示单位时间内数据的读取和写入字节数，以KB/s为单位。通过监控磁盘读写指标，可以有效评估集群性能，确保其高效处理计算任务。网络流量反映节点内通过私网进行的数据传输情况。您需要特别关注高流量时间段，以便及时发现异常情况。例如网络带宽不足，这将直接影响数据的传输效率。
存储监控	您可以查看该集群内不同文件系统下的存储监控信息，包括以下六个可视化统计信息：存储空间反映集群用于存储计算任务产出、临时文件和应用程序数据的文件存储NAS使用情况。为防范存储空间不足、性能衰退及数据丢失等异常情况，建议通过监控告警、定期数据清理及存储扩展等措施进行有效应对。文件数文件存储NAS中的文件总数，作为评估存储管理效率的关键指标，它间接反映系统健康状况和维护需求；需注意文件数量过多会增加管理复杂性并影响检索效率与性能，若超过预设阈值则需高度关注，建议定期整理存储内容，清除无用或冗余文件，以提升管理效率与系统性能。 IOPS 表示该文件系统在周期内每秒平均读/写IOPS次数。单位为次/秒。延迟表示该文件系统在周期内每毫秒平均延迟，包括读延迟和写延迟。单位为毫秒（ms）。吞吐表示该文件系统在周期内每秒平均吞吐字节数，包括读吞吐和写吞吐。单位为KiB。元数据QPS 表示该文件系统在周期内每秒平均请求元数据次数。单位为次/秒。更多关于文件系统的存储监控指标信息，请参见性能监控和性能说明FAQ。
作业监控	您可以通过集群、队列、项目和用户四个维度进行筛选，查看以下六个可视化统计信息：作业数集群中运行的作业数量是评估集群负载的重要指标，需与可用资源相匹配，以避免因作业数量异常增高而导致的资源竞争。为此，建议优化作业调度，并剔除不必要的作业，以提升整体资源利用效率。排队作业需求总核数排队作业需求总核数表示完成特定任务所需的计算核心总量。在实际应用中，需将其与可用核心数进行比较，若需求高于可用核心，可能导致长时间的等待。为解决此类情况，您可以为集群增加计算核心数量或调整作业的优先级，以优化资源配置和提高效率。作业等待时长作业等待时长是指在集群内作业排队状态下的平均等待时间，反映了资源竞争的情况。较长的等待时间会影响整体效率，特别是在异常情况下，等待时长显著增加时，应优先调度高优先级作业以优化资源利用。运行作业使用总核数运行作业使用总核数指当前运行作业实际所占用的核心数量，该指标有助于监测资源的使用情况。需确保核心使用的有效性，以避免出现资源利用过高或过低的异常情况。针对这些问题，建议调整作业配置并合理分配资源，以提升整体运行效率。作业CPU利用率作业CPU利用率是指作业实际使用的核数除以作业申请的核数的比例。对于作业CPU利用率较低的情况，这可能表示系统存在异常，例如CPU利用率低于预期阈值。这种现象可能影响系统的整体性能，导致资源的浪费。因此，建议及时对相关作业及其计算负载进行深入分析，从而实现有效的调整与优化。作业内存利用率作业内存利用率是指作业实际使用的内存量除以作业申请的内存量的比例。因此您需关注作业内存的合理使用，避免出现过高的内存占用，导致内存溢出或不足等异常情况。为维护系统稳定性，您可通过优化内存配置或升配节点规格来处理相关问题。

上一篇：监控与告警下一篇：配置告警通知

该文章对您有帮助吗？