状态和报警

更新时间:
复制为 MD 格式

ECS实例性能下降或运行异常时,可借助状态与报警页面快速判断实例的运行状况。该页面聚合了实例健康状态系统健康状态以及监控报警信息,您可以通过该页面查看触发的报警信息,并利用ECS AI助手快速获取根因分析与修复建议。

功能入口

说明

该功能正在邀测中。

  1. 登录ECS控制台-实例,在页面顶部选择资源组和地域。

  2. 找到目标实例后,单击目标实例ID,进入实例详情页。

  3. 点击监控页签,默认展示状态与报警子页签。

    image

功能详解

状态检查

系统通过底层探针实时检测实例的物理宿主机状态及操作系统网络栈的可达性。

系统状态检查

  • 正常:宿主机及物理网络运行正常。

  • 异常:宿主机发生硬件故障或维护。建议重启或迁移实例。

  • 未检测:实例处于 已停止 (Stopped) 或 启动中 状态,无法执行检查。

实例状态检查

  • 正常:操作系统网络栈正常响应。

  • 异常:操作系统内部异常(如死机、网卡配置错误)。

  • 未检测:实例处于 已停止 (Stopped) 或 启动中 状态,无法执行检查。

更多信息,请参见实例健康状态

监控报警

监控报警列表聚合了性能风险事件云监控报警两类信息。

  • 性能风险事件:由阿里云底层系统自动检测,无需配置,默认开启。当实例的运行指标触达了购买的实例规格上限时触发(例如:实例的CPU性能达到规格上限、实例的存储性能达到规格上限)。

    触发机制:通常在过去3分钟内,有2次达到规格定义的上限即触发。
  • 云监控报警:基于云监控的指标数据创建的报警创建报警规则后,当指标超过设定的阈值时会展示在监控报警列表中。

使用ECS AI助手进行根因分析

当监控列表中出现性能风险事件或告警时,可使用 ECS AI 助手进行自动化的深度诊断。

  1. 启动 AI 诊断。

    单击操作列的排查建议,ECS AI助手将启动交互式诊断流程

    image

  2. 授权AI助手进行深度探查。

    在 AI 助手的对话框中,当出现发送远程命令的请求时,需单击立即执行进行授权。

    AI 助手会分析已有的云监控指标。若现有数据不足以定位问题,它会请求执行远程命令以获取操作系统内部的实时信息。
  3. 获取根因分析与修复方案。

    AI 助手会自动解析命令返回的结果,并以自然语言形式向您展示根本原因,同时提供可行的修复建议。根据分析结果,AI 助手会提供相应的修复方案。

    • 方案一:执行修复命令。例如,针对异常高负载进程,AI 助手可能提供kill命令。

      重要

      在执行任何终止进程的命令前,请务必确认该进程是否为关键业务进程,避免误操作导致业务中断或数据丢失。建议优先尝试使用 kill -15 <PID> 进行优雅终止。

    • 方案二:调整资源配置。如果问题是由于资源不足导致,AI 助手会建议升级规格、扩容云盘等。

常见问题

点击“排查建议”后,AI一直卡在“正在思考”?

复杂问题的分析可能需要几十秒。如果长时间无响应,且涉及到执行远程命令,请按以下步骤排查:

  1. 检查云助手状态:确保实例内部的云助手 Agent 处于在线状态。AI助手执行远程命令依赖阿里云云助手 (Cloud Assistant)。如果实例中云助手Agent异常,AI可能无法深入排查,请先检查云助手状态

  2. 检查安全组规则:确认实例所在的安全组已放行出方向对阿里云 API 服务端点的访问。AI 助手需要通过此网络路径与实例进行通信。