系统负载诊断

系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。

使用限制

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 权限限制

    若使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户

  • 操作系统限制

    架构

    操作系统

    x86架构

    • Rocky Linux 9.5

    • Rocky Linux 9.1

    • Ubuntu 20.04

    • Alibaba Cloud Linux 3 容器优化版

    • Rocky Linux 8.8

    • Ubuntu 22.04

    • Alibaba Cloud Linux 3 Pro

    • Alibaba Cloud Linux 2/3

    • CentOS 7.6及更高版本,或CentOS 8

    • Anolis OS 7/8

    • Ubuntu 24.04

    ARM架构

    • Alibaba Cloud Linux 3 Pro

    • Alibaba Cloud Linux 3

应用场景

本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。

  • 运维人员通过监控发现系统load指标过高。

  • 系统在短时间内出现与网络、IO等相关的内存异常。

操作步骤

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏单击应用中心

  2. 应用中心页面,单击ECS洞察

  3. 在页面顶部单击系统诊断(SysOM)

  4. 诊断模式中选择节点诊断,在诊断类型列表中,选择调度诊断;在诊断项列表中,选择系统负载诊断;选择实例ID后,单击执行诊断

  5. 诊断记录区域,单击查看报告

诊断报告

  • 基础信息

    基础信息部分包含单次诊断的基本信息,包括诊断实例ID(资源ID)、诊断项、诊断报告ID及诊断发起时间。

  • 诊断结论

    本次诊断如果有负载异常发生,总结检测结果并给出负载异常的详细原因。

  • 诊断建议

    根据诊断情况提供相应的处理建议。

  • 诊断详情

    本次诊断如果有负载异常发生,会记录负载异常详细信息。

实践案例

本文以绑核错误导致负载异常为例对系统负载诊断功能使用说明。

问题现象

容器监控系统检测到系统处于高负载状态。

诊断分析

针对上述场景,使用操作控制台的系统负载诊断功能对目标ECS实例进行诊断,诊断结果如图所示。

  • 诊断结论和建议

    image

    • 诊断结论:负载高的主要原因是CPU计算资源存在压力。

    • 诊断建议:分析可能是由于绑核行为导致CPU负载不均,任务都堆积到部分CPU上。

  • 诊断详情

    诊断详情可进一步查阅负载相关的详细信息,如下图所示。

    image.png

    • 事件总览:查看整体的系统负载值,以及分析内核侧是否有系统调用、硬中断、软中断和IO的压力。

    • 负载详情:查看RD进程的分布情况,进一步定位到stressR状态进程数量较多。

解决方案

将空闲的CPU纳入绑核范围或取消绑核,以便将负载分摊至空闲的CPU上。