系统负载诊断的目的是分析系统在一分钟内的平均负载(load1指标)异常原因及其详细信息,并提供相应的处理建议。
地域限制
本功能目前仅支持中国内地与中国香港。
应用场景
本文列举了部分常见的场景,您可以利用该功能进行诊断分析,并根据建议采取相应措施以解决问题。
运维人员通过监控发现系统load指标过高。
系统在短时间内出现与网络、IO等相关的内存异常。
前提条件
如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略
AliyunECSReadOnlyAccess
和AliyunSysomFullAccess
授予RAM用户。具体操作,请参见为RAM用户授权。已开通控制台权限。
首次登录操作系统控制台时,单击开通服务以开通控制台服务。
操作步骤
诊断报告
基础信息
基础信息部分包含单次诊断的基本信息,包括诊断实例ID(资源ID)、诊断项、诊断报告ID及诊断发起时间。
诊断结论
本次诊断如果有负载异常发生,总结检测结果并给出负载异常的详细原因。
诊断建议
根据诊断情况提供相应的处理建议。
诊断详情
本次诊断如果有负载异常发生,会记录负载异常详细信息。
实践案例
本文以绑核错误导致负载异常为例对系统负载诊断功能使用说明。
问题现象
容器监控系统检测到系统处于高负载状态。
诊断分析
针对上述场景,使用操作控制台的系统负载诊断功能对目标ECS实例进行诊断,诊断结果如图所示。
诊断结论和建议
诊断结论:负载高的主要原因是CPU计算资源存在压力。
诊断建议:分析可能是由于绑核行为导致CPU负载不均,任务都堆积到部分CPU上。
诊断详情
诊断详情可进一步查阅负载相关的详细信息,如下图所示。
事件总览:查看整体的系统负载值,以及分析内核侧是否有系统调用、硬中断、软中断和IO的压力。
负载详情:查看R和D进程的分布情况,进一步定位到
stress
的R状态进程数量较多。
解决方案
将空闲的CPU纳入绑核范围或取消绑核,以便将负载分摊至空闲的CPU上。