系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。
使用限制
地域限制
本功能目前仅支持中国内地与中国香港。
操作系统限制
架构
操作系统
x86架构
Rocky Linux 9.5
Rocky Linux 9.1
Ubuntu 20.04
Alibaba Cloud Linux 3 容器优化版
Rocky Linux 8.8
Ubuntu 22.04
Alibaba Cloud Linux 3 Pro
Alibaba Cloud Linux 2/3
CentOS 7.6及更高版本,或CentOS 8
Anolis OS 7/8
Ubuntu 24.04
ARM架构
Alibaba Cloud Linux 3 Pro
Alibaba Cloud Linux 3
应用场景
本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。
运维人员通过监控发现系统load指标过高。
系统在短时间内出现与网络、IO等相关的内存异常。
前提条件
如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略
AliyunECSReadOnlyAccess
和AliyunSysomFullAccess
授予RAM用户。已开通控制台权限。
首次登录操作系统控制台时,单击开通服务以开通控制台服务。
操作步骤
访问操作系统控制台。
在左侧导航栏,单击系统诊断。
在页面左侧顶部,选择目标实例所在的地域。
在诊断类型列表中,选择调度诊断;在诊断项列表中,选择系统负载诊断;选择实例ID后,单击执行诊断。
说明若未安装SysOM,单击执行诊断后,系统将自动为目标ECS实例安装SysOM,并随之发起诊断。
在诊断记录区域,单击查看报告。
诊断报告
基础信息
基础信息部分包含单次诊断的基本信息,包括诊断实例ID(资源ID)、诊断项、诊断报告ID及诊断发起时间。
诊断结论
本次诊断如果有负载异常发生,总结检测结果并给出负载异常的详细原因。
诊断建议
根据诊断情况提供相应的处理建议。
诊断详情
本次诊断如果有负载异常发生,会记录负载异常详细信息。
实践案例
本文以绑核错误导致负载异常为例对系统负载诊断功能使用说明。
问题现象
容器监控系统检测到系统处于高负载状态。
诊断分析
针对上述场景,使用操作控制台的系统负载诊断功能对目标ECS实例进行诊断,诊断结果如图所示。
诊断结论和建议
诊断结论:负载高的主要原因是CPU计算资源存在压力。
诊断建议:分析可能是由于绑核行为导致CPU负载不均,任务都堆积到部分CPU上。
诊断详情
诊断详情可进一步查阅负载相关的详细信息,如下图所示。
事件总览:查看整体的系统负载值,以及分析内核侧是否有系统调用、硬中断、软中断和IO的压力。
负载详情:查看R和D进程的分布情况,进一步定位到
stress
的R状态进程数量较多。
解决方案
将空闲的CPU纳入绑核范围或取消绑核,以便将负载分摊至空闲的CPU上。