SysOM诊断Skill使用说明

更新时间:
复制为 MD 格式

SysOM诊断Skill(alibabacloud-sysom-diagnosis)是阿里云官方发布的操作系统诊断工具,已上线阿里云智能体Skills门户。该Skill面向运维和开发人员,用于快速定位Linux实例上的系统级问题,包括内存、网络、IO和负载等方面的诊断。

概述

SysOM诊断Skill是阿里云操作系统团队发布的智能诊断工具,通过阿里云智能体Skills门户提供服务。该工具将操作系统诊断能力封装为标准化的Skill接口,支持通过智能体调用实现自动化系统诊断。

前提条件

在使用SysOM诊断Skill之前,您需要完成以下准备工作:

  1. 安装并配置Aliyun CLI

    确保已安装Aliyun CLI 3.3.3或更高版本。如果尚未安装,请参见安装阿里云CLI

  2. 配置访问凭证

    配置AccessKey IDAccessKey Secret作为访问凭证,用于调用阿里云OpenAPI。请参见配置凭证

  3. 授予权限

    确保您的账号或RAM用户已被授予AliyunSysomFullAccess系统策略,该策略包含使用SysOM诊断所需的所有权限。

  4. 安装Skill

    通过阿里云智能体Skills门户搜索并安装alibabacloud-sysom-diagnosis。

诊断能力

SysOM诊断Skill接入后,支持以下诊断能力,诊断结果以结构化JSON格式输出:

诊断类型

诊断项

说明

内存诊断

内存全景分析

适用于内存占用较高但无法明确识别具体内存占用情况的场景。

Java内存诊断

融合应用层(JVM)与操作系统层的内存视图,快速定位容器化Java应用中内存使用异常和OOMKilled的根本原因。

OOM诊断

对操作系统发生OOM的原因进行分析和界定。

网络诊断

网络丢包诊断

分析操作系统内核层面发生的丢包现象并提出相应的解决方案。

网络抖动诊断

分析ECS实例网络抖动问题并确定抖动的具体原因。

IO诊断

IO流量分析

分析系统中IO流量的归属,适用于解决IO Burst问题。

IO一键诊断

针对IO高延迟、IO BurstIO Wait等高频问题,自动识别问题类型并调用子工具进行分析。

负载诊断

调度抖动诊断

分析CPU长时间不进行任务切换导致用户态业务进程长期得不到调度的问题。

系统负载诊断

分析系统一分钟内平均负载(load1指标)异常的原因并提供处理建议。

宕机诊断

宕机诊断

通过系统日志和转储文件分析宕机原因。

使用方式

安装SysOM诊断Skill后,您可以通过以下方式使用:

  1. 在支持阿里云智能体SkillsAI助手中,通过自然语言描述系统问题,AI助手将自动调用SysOM诊断Skill进行分析。

  2. 通过Aliyun CLI直接调用Skill接口,传入实例ID和诊断类型参数进行诊断。

说明
  • 诊断过程中不会修改您的系统配置或数据,仅执行只读诊断操作。

  • 诊断结果以结构化JSON格式返回,便于程序化处理和集成。