宕机诊断

ECS实例出现内核panic、内存溢出OOM(Out Of Memory)等问题,或收到系统事件通知实例出现操作系统崩溃时,可以通过宕机诊断分析系统崩溃的具体原因,并根据诊断报告中提供的修复建议进行相应的修复。

使用限制

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 权限限制

    若使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户

  • 操作系统限制

    架构

    操作系统

    x86架构

    • Rocky Linux 9.5

    • Rocky Linux 9.1

    • Ubuntu 20.04

    • Alibaba Cloud Linux 3 容器优化版

    • Rocky Linux 8.8

    • Ubuntu 22.04

    • Alibaba Cloud Linux 3 Pro

    • Alibaba Cloud Linux 2/3

    • CentOS 7.6及更高版本,或CentOS 8

    • Anolis OS 7/8

    • Ubuntu 24.04

    ARM架构

    • Alibaba Cloud Linux 3 Pro

    • Alibaba Cloud Linux 3

操作步骤

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏单击应用中心

  2. 应用中心页面,单击ECS洞察

  3. 在页面顶部单击系统诊断(SysOM)

  4. 诊断模式中选择节点诊断,在诊断类型列表中,选择场景诊断;在诊断项列表中,选择宕机诊断;选择目标实例ID后,单击执行诊断

  5. 诊断记录区域,单击查看报告

诊断报告

  • 基础信息

    基础信息部分包含单次诊断的基本信息,包括诊断实例ID(资源ID)、诊断项、诊断报告ID及诊断发起时间。

  • 诊断结论

    本次诊断如果系统发生宕机,总结检测结果并给出宕机的详细原因。

  • 诊断建议

    根据诊断情况提供相应的处理建议。

  • 诊断详情

    • 基本信息

      • 宕机标题:宕机时错误信息。

      • 现场进程:宕机时CPU上执行的进程名。

      • RIP函数:宕机时RIP寄存器里存放的函数地址。

      • 内核版本:系统内核版本。

      • 宕机定界:对宕机的原因进行的初步定界。

    • 宕机堆栈

      列出宕机时刻的内核调用栈堆。

    • 错误日志

      • 若存在内核报错日志,则显示错误日志。例如IO异常、硬件异常等。

      • 若不存在,则不显示。