系统负载诊断

系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。

地域限制

本功能目前仅支持中国内地与中国香港。

应用场景

本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。

  • 运维人员通过监控发现系统load指标过高。

  • 系统在短时间内出现与网络、IO等相关的内存异常。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户。具体操作,请参见RAM用户授权

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

操作步骤

  1. 登录操作系统控制台

  2. 为目标ECS实例安装SysOM。具体操作,请参见安装组件

  3. 在左侧导航栏,单击系统诊断

  4. 在页面左侧顶部,选择目标实例所在的地域。

    image

  5. 诊断类型列表中,选择调度诊断,在诊断项列表中,选择系统负载诊断,选择实例ID,单击执行诊断

  6. 诊断记录区域,单击查看报告

    image

诊断报告

  • 基础信息

    基础信息部分包含单次诊断的基本信息,包括诊断实例ID(资源ID)、诊断项、诊断报告ID及诊断发起时间。

  • 诊断结论

    本次诊断如果有负载异常发生,总结检测结果并给出负载异常的详细原因。

  • 诊断建议

    根据诊断情况提供相应的处理建议。

  • 诊断详情

    本次诊断如果有负载异常发生,会记录负载异常详细信息。

实践案例

本文以绑核错误导致负载异常为例对系统负载诊断功能使用说明。

问题现象

容器监控系统检测到系统处于高负载状态。

诊断分析

针对上述场景,使用操作控制台的系统负载诊断功能对目标ECS实例进行诊断,诊断结果如图所示。

  • 诊断结论和建议

    image

    • 诊断结论:负载高的主要原因是CPU计算资源存在压力。

    • 诊断建议:分析可能是由于绑核行为导致CPU负载不均,任务都堆积到部分CPU上。

  • 诊断详情

    诊断详情可进一步查阅负载相关的详细信息,如下图所示。

    image.png

    • 事件总览:查看整体的系统负载值,以及分析内核侧是否有系统调用、硬中断、软中断和IO的压力。

    • 负载详情:查看RD进程的分布情况,进一步定位到stressR状态进程数量较多。

解决方案

将空闲的CPU纳入绑核范围或取消绑核,以便将负载分摊至空闲的CPU上。