实例健康诊断功能是一种自助诊断方式,您可以随时对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围与结果供您参考。

ECS服务健康诊断

ECS服务健康诊断主要诊断云服务器ECS底层的资源和虚拟化层,确保ECS底层服务无异常。

诊断项 描述 诊断范围
Instance.ResourceNotEnough 因CPU或内存资源不足,导致实例无法正常启动。 检查该实例所需要的CPU或内存等物理资源是否充足。如果因为库存不足使得物理资源不足,将导致实例无法启动。您可以等待几分钟后重新尝试开机,或者更换地域或可用区重新开机。
Instance.CheckTimeOut 实例系统管控通道检查超时。 检查该实例底层虚拟化层相关组件的状态是否存在超时现象。如果超时,可能会导致实例当前命令执行失败。您需要重新尝试该命令。
Instance.SystemException 实例系统出现了内核错误(kernel panic)、OOM异常或内部宕机等故障。 检查该实例的操作系统Guest OS内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于Guest OS内的用户程序或实例配置不当而导致,您可以尝试通过重启实例进行恢复。
Instance.VirtException 实例在运行中出现崩溃或出现异常暂停。 检查该实例底层虚拟化层核心服务是否出现异常。如果出现异常可能会导致实例崩溃或出现异常暂停。您可以尝试通过重启实例进行恢复。
Instance.HostDownAlert 实例所在的物理设备出现故障告警。 检查该实例所在的底层物理机是否有故障。如果该物理机存在故障,则可能会影响实例的运行状态或性能。您可以尝试通过重启实例进行恢复。
Instance.PerfRestrict 积分型实例当前处于性能受限模式。 检查突发性能实例的CPU积分余额,是否足够支付当前性能所需积分。如果积分不够,则该实例在业务高峰时只能使用基准性能,而无法启动突发性能。
Instance.CPUException 实例因CPU争抢而出现异常,或者独享型实例的CPU绑定失败。 检查共享型实例底层是否存在CPU争抢,导致该实例无法获得CPU或出现其他异常。您可以尝试通过重启实例进行恢复。
Instance.ControllerError ECS实例后台管控系统发生异常。 检查该实例的后台管控系统是否正常工作。如果该系统未正常工作,可能导致本实例运行异常。您可以尝试通过重启实例进行恢复。

实例配置管理诊断

实例配置管理诊断主要检查实例在启动过程中或运行中,是否被某个操作阻塞(block)导致实例无法启动或者运行异常。

诊断项 描述 诊断范围
Instance.BootFailure 实例无法被管控系统正常启动。 检查该实例的boot操作是否能正常执行加载,如果实例无法正常boot,您需要创建一个新的实例。
Instance.OperationFailure 您对实例进行管理控制的操作执行失败。 检查您对该实例最近执行的管理操作,例如开机、关机、升配等是否执行成功。如果执行失败,您需要重新发起该操作。
Instance.ImageLoadFailure 实例所使用的镜像无法正常加载。 检查该实例在启动时所使用的镜像是否能正常加载。镜像可能因为系统原因、镜像问题等加载失败。您可以尝试通过重启实例进行恢复。

实例云盘健康诊断

实例云盘健康诊断会检查实例系统盘的运行状态是否存在异常。

诊断项 描述 诊断范围
Instance.IOHang 云盘IO hang,导致云盘无法读写。 检查该实例的系统盘是否存在IO hang的情况。如果出现IO hang,云盘无法进行读写操作。
Instance.DiskLoadFailure 创建或挂载云盘时出现错误。 检查该实例在启动时系统盘是否能正常挂载。如果挂载失败,则会导致实例无法正常启动。
Instance.DiskLimit 云盘IO延迟过长,或达到该云盘类型的IOPS上限。 检查该实例系统盘的读写IO是否存在延迟,以及读写的IOPS是否超过了该云盘的IOPS上限。如果系统盘的IO存在延迟,表示云盘出现故障,如果一直未恢复,请提交工单解决。如果云盘读写IOPS超过上限,则云盘读写将被限制。
Instance.ResizeFsFailure 云盘扩缩容后,文件系统的大小调整失败。 检查该实例的系统盘在扩容后,云盘上的文件系统是否也调整成功。如果文件系统未成功调整,表示新扩容的磁盘无法使用。

实例网络健康诊断

实例网络健康诊断会检查实例内部网络组件状态,以及外部网络环境异常等情况。

诊断项 描述 诊断范围
Instance.ArpPingError 实例网卡链路层出现异常。 检查该实例的底层链路层是否出现ARP ping不通的情况。如果ARP ping不通,将影响实例的网络连通性。您可以尝试通过重启实例进行恢复。
Instance.NetworkLoadFailure 实例的网卡加载异常。 检查该实例的网卡是否能正常加载。如果网卡无法正常加载,将影响实例的网络连通性,例如实例无法远程连接。您可以尝试通过重启实例进行恢复。
Instance.PacketDrop 网卡入方向或出方向存在丢包现象。 检查该实例的网卡入方向或出方向是否存在丢包现象。如果存在,将影响实例的网络连通性或网络吞吐,例如导致实例无法远程连接,或网速过慢。您可以尝试通过重启实例进行恢复。
Instance.NetworkSessionError 网卡会话无法正常建立,或会话数超过上限。 检查该实例的网卡是否能正常建立会话。如果网卡无法建立会话或已建立的会话超过限制,将影响实例的网络连通性或网络吞吐,例如导致实例无法远程连接,或网速过慢。您可以尝试通过重启实例进行恢复。
Instance.ICMPPingError ICMP ping不通。 检查该实例的底层链路层是否出现ICMP ping不通的情况。如果出现ICMP ping不通,会影响实例的网络连通性。您可以尝试通过重启实例进行恢复。

实例费用诊断

实例费用诊断会检查实例本身和实例关联组件(例如公网IP流量、EIP流量)是否欠费。

诊断项 描述 诊断范围
Instance.ExpirationStop 检查包年包月实例是否已到期。 如果该实例是包年包月的计费方式,检查实例是否已到期。到期后,实例将被关机停服,实例无法访问。到期后资源状态变化请参见包年包月。您需要续费来恢复服务。
Instance.AccountUnbalancedStop 检查按量实例是否因为欠费导致停服。 如果该实例是按量付费的计费方式,检查账号是否欠费。欠费后,实例将被关机停服,实例无法访问。账号欠费后资源状态变化请参见按量付费。您需要充值后手动进行重开机才能恢复实例。
Instance:AccountUnbalancedPerformanceImpact 检查实例的组件是否已欠费。 检查实例关联的按量付费云盘或网络带宽是否因账号欠费而无法正常使用。实例组件欠费被停服后,实例的访问也将收到影响。您需要充值进行恢复。

实例关联安全组诊断

实例安全组诊断会检查实例关联的所有安全组入方向常见端口的放行状态。

诊断项 描述 诊断范围
Instance.SGIngress 实例关联的安全组入方向常用端口放开状态。 检查该实例关联的安全组常见端口的放开状态。如果常见端口未放行,可能会导致部分服务无法正常运行或实例无法访问。检查放行的常见端口如下:
  • 入方向SSH端口(22),需放行
  • 入方向HTTP端口(80/8080),需放行
  • 入方向HTTPS端口(443),需放行
  • 入方向RDP端口(3389),需放行
  • 入方向ICMP协议(-1),需放行