实例健康诊断功能可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。

前提条件

如果问题场景为全面体检或者实例网络异常,请确保待检测实例满足以下条件:
  • 实例规格:属于在售的实例规格族。更多信息,请参见实例规格族
    说明 已停售的实例规格族不支持实例健康诊断功能。
  • 实例状态:处于运行中(Running)状态。
  • 操作系统:如果您选择的问题场景中会同时检测实例操作系统内的配置,需要确保实例操作系统符合下表所述的条件。
    操作系统架构操作系统版本操作系统内配置
    x86_64位
    • Windows Server 2008及更高版本
    • Alibaba Cloud Linux 2/3
    • AlmaLinux 8.x
    • Anolis OS 7.x/8.x
    • CentOS 7.x/8.x
    • CentOS Stream 8
    • Debian 8.x/9.x/10.x/11.x
    • Fedora 33/34
    • OpenSUSE 15.x/42.x
    • Rocky Linux 8.x
    • SUSE Linux Enterprise Server 12.x/15.x
    • Ubuntu 16.04/18.04/20.04
    • Python版本:
      • Python 3.6~3.9
      • Python 2.7
    • 已安装云助手Agent。具体操作,请参见安装云助手Agent
    说明 表中未列出的操作系统发行版本均不支持,对于不支持的发行版本上的操作系统诊断运行效果不做保证。
如果问题场景为实例无法启动,请确保待检测实例状态满足以下条件:
  • 实例状态:处于已停止(Stopped)状态。
  • 操作系统:选择的问题场景中会同时检测实例操作系统内的配置,需要确保实例操作系统符合下表所述的条件。
    操作系统架构操作系统版本
    x86_64位
    • Alibaba Cloud Linux 2/3
    • AlmaLinux 8.x
    • Anolis OS 7.x/8.x
    • CentOS 7.x/8.x
    • CentOS Stream 8
    • Debian 8.x/9.x/10.x/11.x
    • Fedora 33/34/35
    • OpenSUSE 15.x/42.x
    • Rocky Linux 8.x
    • Red Hat Eneterprise Linux 7.x/8.x
    • SUSE Linux Enterprise Server 12.x/15.x
    • Ubuntu 16.04/18.04/20.04
    说明 表中未列出的操作系统发行版本均不支持,对于不支持的发行版本上的操作系统诊断运行效果不做保证。

背景信息

推荐您在以下场景中使用实例健康诊断功能了解实例健康状态:
  • 定位解决问题:在操作实例过程中遇到问题,需要进行针对性的问题诊断以寻求修复方法,例如网络连接不通。
  • 定期全面检查:在日常运维中,需要全面了解实例整体的健康情况,以便及时发现并处理异常情况,避免影响业务。
说明 实例健康诊断功能为各诊断项提供了问题说明和修复建议,更多信息,请参见诊断项与诊断结果说明

创建实例诊断

  1. 登录ECS管理控制台
  2. 根据需要选择一种方式开始诊断。
    • 自助问题排查页面:
      1. 在左侧导航栏,单击自助问题排查
      2. 在顶部菜单栏左上角处,选择地域。
      3. 单击实例问题排查页签。
    • 实例页面:
      1. 在左侧导航栏,单击实例与镜像 > 实例
      2. 在顶部菜单栏左上角处,选择地域。
      3. 找到待检测实例,在对应操作列中选择更多 > 运维和诊断 > 实例问题排查
    • 在单台实例详情页面的健康诊断页签:
      1. 在左侧导航栏,单击实例与镜像 > 实例
      2. 在顶部菜单栏左上角处,选择地域。
      3. 找到待检测实例,单击实例ID。
      4. 单击健康诊断页签。
      5. 单击开始诊断
  3. 实例问题排查页面,选择问题类型、实例ID及时间范围,然后单击开始排查
    说明 同一台实例只能同时存在一个进行中的诊断任务,且前后两次诊断的时间间隔需要超过5分钟。
    问题类型说明
    实例性能问题诊断ECS实例CPU负载高、内存负载高、带宽负载高、磁盘BPS/IOPS高,或者实例性能受损等问题。
    实例无法连接或启动异常诊断VNC无法远程连接、SSH无法连接、实例处于运行状态,实例操作系统无法启动等问题。
    网络问题诊断ECS实例的网络性能受损,或者ping不通等问题。
    实例操作未生效诊断ECS实例的变更操作未生效问题,例如云盘扩容实际未生效。
    资源配额不足诊断ECS实例的资源配额是否达到上限,例如云盘容量配额不足、镜像数量配额不足、弹性网卡创建数达到上限、安全组总数达到上限等问题。
    费用类问题诊断ECS实例购买、退款、续费、升降配、转换计费方式等问题。
    安全风险检测诊断ECS实例是否存在安全风险,例如系统漏洞、安全告警、恶意进程等。
    实例费用及安全行为审计对ECS实例状态类、实例费用类、安全组相关等操作行为审计、追溯。
    说明 使用实例费用及安全行为审计诊断功能时需要拥有实例自助问题排查的关联角色及权限。更多信息,请参见管理实例问题排查诊断服务的关联角色
    其他问题直接输入问题的详情。

    具体的诊断项以页面显示为准,您可以在诊断报告中单击诊断项详情下的各页签查看具体的诊断项及其诊断进展。诊断过程大概需要几分钟,您可以在当前页面查看进展及等待诊断报告,也可以关闭对话框后在诊断任务列表中查看诊断进展和报告。

  4. 查看诊断报告。
    诊断报告中包含以下信息:
    • 基本信息:包括资源ID、报告ID和诊断时间。
    • 诊断结果:如果各项检查均正常,则显示为通过。如果存在异常诊断项,则显示具体的异常诊断项并提供相应的修复方案,您可以参考修复方案解决问题。
    • 诊断项详情:包括各诊断项的结果,级别分为严重、警告和通过。
    说明 使用实例费用及安全行为审计诊断功能时,您还可以通过以下方式获取更多信息:

    您可以基于诊断报告,自助解决对应问题。具体说明如下:

查看诊断历史

如果想要了解实例的历史健康情况,您可以查看实例的诊断历史。

  1. 登录ECS管理控制台
  2. 根据需要选择一种方式查看实例的诊断历史。
    • 查看单台实例的诊断历史
      1. 在左侧导航栏,选择实例与镜像 > 实例
      2. 在顶部菜单栏处,选择地域。
      3. 找到待查看的实例,根据需要选择一种方式查看该实例的诊断历史。
        • 在实例对应操作列中选择更多 > 运维和诊断 > 实例问题排查历史
        • 单击实例ID进入该实例的详情页面,单击健康诊断页签。
    • 查看所有实例的诊断历史
      1. 在左侧导航栏,单击自助问题排查
      2. 在顶部菜单栏处,选择地域。
      3. 单击实例问题排查页签,然后单击查看历史
      4. 检测历史页面,单击实例健康诊断页签,并输入资源ID或报告ID,然后单击search图标。
    说明 在诊断历史报告列表中,您可以单击诊断状态右侧的筛选图标,选择相应的状态进行筛选。
  3. 对于单条诊断历史,您可以单击查看报告查看报告内容,或者单击重新诊断重新发起一次诊断。