修复实例操作系统无法启动问题的操作指南

实例健康诊断功能支持对实例无法启动问题进行自助诊断排查,您可以通过健康诊断了解实例无法启动的具体原因,并在挂载修复盘的情况下启动并登录实例,修复实例原来操作系统中导致无法启动的相关配置。您可以通过本文了解修复盘的操作说明,以及ECS实例无法启动的解决方案。

适用场景

当您启动或重启ECS实例后,ECS实例生命周期状态一直处于启动中(Starting)运行中(Running),并且实例健康状况一直处于初始化中(Initializing)。此时实例的操作系统未能启动,无法通过SSH或RDP远程连接ECS实例。只能通过VNC登录实例,查看实例操作系统的启动进度和一些错误日志。

该问题可能是因为ECS实例的操作系统内某些配置不当,导致操作系统无法正常启动。您可以通过实例健康诊断功能对该问题进行诊断,并参考诊断结果进行问题修复。

前提条件

ECS实例必须处于已停止状态,具体操作,请参见停止实例

修复流程

通过实例健康诊断修复实例无法启动问题的具体流程如下:

image

步骤一:发起实例无法连接或启动异常诊断

重要

在修复实例操作系统无法启动问题时,您可能会修改实例原系统盘的系统配置。为了避免不必要的风险,建议您在诊断前,先对实例的系统盘创建一个快照,以便后续数据恢复。

  1. 登录ECS管理控制台

  2. 在左侧导航栏,单击自助问题排查

  3. 在顶部菜单栏左上角处,选择地域。

  4. 实例问题排查页签,单击实例无法连接或启动异常问题类型。

  5. 选择实例状态为已停止,无法正常启动问题、需要诊断的实例ID及时间范围,然后单击开始排查

    说明

    需要诊断的ECS实例必须处于已停止状态,具体操作,请参见停止实例

    实例健康诊断

    诊断完成后,实例处于运行中修复中状态。

    运行中、修复中

步骤二:查看诊断结果

不同于其他健康诊断场景,实例无法启动的健康诊断完成后,诊断结果无论是严重、警告还是通过,被诊断的实例均会被挂载一个修复盘,您可以在诊断报告中查看到修复盘的相关信息,并且可以根据诊断报告显示的具体问题进行实例修复。关于如何查看诊断报告,请参见查看诊断历史

实例被挂载修复盘的说明

实例通过修复盘中的操作系统启动时,相关信息说明如下:

修复盘相关信息

说明

操作系统

  • Linux:Alibaba Cloud Linux 2.1903 LTS 64位

  • Windows:Windows Server 2016 数据中心版 64位中文版

访问账号

  • Linux:root

  • Windows:Administrator

访问密码

从诊断报告中查看

重要

即使在修复盘系统中修改了密码,在重启修复盘系统之后也会恢复到系统所提供的密码,无法使用实例原来系统中的任何用户名和密码进行登录。

云盘读写

  • 系统盘:不支持

    修复盘系统是从特定虚拟存储设备启动的系统,对于修复盘系统本身,所有的修改操作只会暂存于内存中,只在当次运行过程中有效,重启修复盘系统后就会清空并失效。

  • 数据盘:支持

创建快照

  • 系统盘:不支持

  • 数据盘:支持

诊断结果说明

诊断结果主要包括两部分内容,修复盘信息与诊断结果和建议,如下图所示:

诊断结果说明

修复盘信息说明如下:

  • 上图中①:展示了自动挂载修复盘后ECS提供的登录实例挂载的修复系统的用户名(Linux系统为root,Windows系统为Administrator)及密码信息,您可以通过该信息登录挂载了修复盘的ECS实例。

  • 上图中②:提供了使用VNC远程连接该ECS实例的快捷方式。ECS实例挂载修复盘的状态下,您只能通过该入口登录ECS实例进行问题修复,Workbench、第三方远程连接工具等方式均无法直接登录该实例。

  • 上图中③:提供了卸载修复盘的入口。您可以根据健康诊断结果和修复进展,通过该入口卸载修复盘,使实例的恢复至原来的操作系统。具体说明如下:

    • 如果健康诊断的结果为通过,说明实例健康诊断未诊断到实例异常问题,您可以参考步骤四:将ECS实例恢复至正常模式后,通过VNC远程连接ECS实例进一步排查具体问题。如还未解决,请提交工单,联系技术支持获取帮助。

    • 如果健康诊断的结果为严重或者警告,说明您的ECS实例存在异常,您需要在诊断报告中,通过VNC远程连接(上图中②)ECS实例,然后使用修复盘对应的登录信息(上图中①)登录实例。当您在实例内完成异常修复后,再卸载修复盘。

异常详情和修复建议说明如下:

异常详情和修复建议主要展示实例操作系统配置不当的具体问题,并且给出修复建议。您可以单击推荐的修复文档,查看具体的问题描述及修复建议进行修复。具体操作,请参见步骤三:修复实例操作系统配置不当问题

步骤三:修复实例操作系统配置不当问题

  1. 远程连接问题实例。

    您可以在诊断结果界面单击VNC远程连接,使用诊断报告中提供的临时登录实例的用户名(Linux系统为root,Windows系统为Administrator)和密码信息登录挂载了修复盘的ECS实例。具体操作,请参见通过密码认证登录Linux实例

    说明

    当ECS实例处于正在挂载修复盘的模式下时,只能通过VNC远程连接。

  2. 查看问题实例原有系统盘的挂载信息。

    • Linux系统

      在临时挂载的修复盘中,问题实例原有系统盘的文件系统会被挂载到某一临时目录下。您可以通过以下任一方式查看所在的临时目录信息:

      • 在系统盘详情页的挂载实例进行查看,临时目录格式示例为/tmp/ecs-offline-diagnose_disk-uf67g4wwius3metl****,其中uf67g4wwius3metl****为实例原有系统盘的云盘序列号,

      • 在临时挂载的修复盘中,运行mount命令查看所在的临时目录信息。例如,问题实例原有系统盘的设备路径为/dev/vda,命令示例如下所示:

        mount | grep /dev/vda

        返回结果如下所示:

        /dev/vda1 on /tmp/ecs-offline-diagnose_disk-uf67g4wwius3metl**** type ext4 (rw,relatime)
      • Windows系统:挂载的修复盘为X盘,原系统中系统盘和数据盘符不变。

  3. 修复实例操作系统配置不当问题。

    以下提供了常见的实例无法启动的解决方案,您可以根据诊断结果中的诊断项详情,查看实例无法启动的原因,然后根据不同的原因选择对应的解决方案。

步骤四:将ECS实例恢复至正常模式

当实例无法启动问题修复完成后,您需要卸载修复盘,将实例恢复至原来使用的操作系统。

说明

卸载修复盘之后,将无法自动再次挂载修复盘,您只能通过再次发起实例操作系统无法启动诊断,才能触发系统自动为实例挂载修复盘。

方式一:从诊断报告处将实例恢复至原来操作系统

  1. 登录ECS管理控制台

  2. 在左侧导航栏,单击自助问题排查

  3. 在顶部菜单栏左上角处,选择地域。

  4. 单击实例问题排查页签,然后单击查看历史

  5. 实例健康诊断页签,单击对应诊断报告操作列的查看报告

  6. 单击卸载修复盘

  7. 您确定要卸载修复盘吗?对话框,阅读注意事项后,单击立即卸载

    重要

    卸载修复盘需要先停止实例,如未停止实例,需要按照界面提示停止实例后再卸载修复盘。

    停止实例

  8. 启动实例,然后远程连接ECS实例,确保可以正常连接。

    卸载成功后,ECS实例状态为已停止,您需要启动实例后才能远程连接。

    启动实例

方式二:从实例列表页恢复实例

  1. 登录ECS管理控制台

  2. 在左侧导航栏,单击实例与镜像 > 实例

  3. 在顶部菜单栏左上角处,选择地域。

  4. 找到目标实例,停止该ECS实例。

    具体操作,请参见停止实例

  5. 将鼠标悬浮至修复中的状态上,然后单击卸载修复盘

    您也可以单击目标实例ID,在实例详情页面卸载修复盘

    卸载修复盘

  6. 您确定要卸载修复盘吗?对话框,阅读注意事项后,单击立即卸载

    立即卸载

  7. 启动实例,然后远程连接ECS实例,确保可以正常连接。

    卸载成功后,ECS实例状态为已停止,您需要启动实例后才能远程连接。

    启动实例