诊断实例的健康状态

实例健康诊断功能可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。本文介绍如何使用OpenAPI诊断实例的健康状态。

前提条件

如果问题场景为全面体检或者实例网络异常,请确保待检测实例满足以下条件:

  • 实例规格:属于在售的实例规格族。更多信息,请参见实例规格族
    说明 已停售的实例规格族不支持实例健康诊断功能。
  • 实例状态:处于运行中(Running)状态。
  • 操作系统:如果您选择的问题场景中会同时检测实例操作系统内的配置,需要确保实例操作系统符合下表所述的条件。
    操作系统架构操作系统版本操作系统内配置
    x86_64位
    • Windows Server 2008及更高版本
    • Alibaba Cloud Linux 2/3
    • AlmaLinux 8.x
    • Anolis OS 7.x/8.x
    • CentOS 7.x/8.x
    • CentOS Stream 8
    • Debian 8.x/9.x/10.x/11.x
    • Fedora 33/34
    • OpenSUSE 15.x/42.x
    • Rocky Linux 8.x
    • SUSE Linux Enterprise Server 12.x/15.x
    • Ubuntu 16.04/18.04/20.04
    • Python版本:
      • Python 3.6~3.9
      • Python 2.7
    • 已安装云助手客户端。具体操作,请参见安装云助手客户端
    说明 表中未列出的操作系统发行版本均不支持,对于不支持的发行版本上的操作系统诊断运行效果不做保证。

如果问题场景为实例无法启动,请确保待检测实例状态满足以下条件:

  • 实例状态:处于已停止(Stopped)状态。
  • 操作系统:选择的问题场景中会同时检测实例操作系统内的配置,需要确保实例操作系统符合下表所述的条件。
    操作系统架构操作系统版本
    x86_64位
    • Alibaba Cloud Linux 2/3
    • AlmaLinux 8.x
    • Anolis OS 7.x/8.x
    • CentOS 7.x/8.x
    • CentOS Stream 8
    • Debian 8.x/9.x/10.x/11.x
    • Fedora 33/34/35
    • OpenSUSE 15.x/42.x
    • Rocky Linux 8.x
    • Red Hat Eneterprise Linux 7.x/8.x
    • SUSE Linux Enterprise Server 12.x/15.x
    • Ubuntu 16.04/18.04/20.04
    说明 表中未列出的操作系统发行版本均不支持,对于不支持的发行版本上的操作系统诊断运行效果不做保证。

背景信息

推荐您在以下场景中使用实例健康诊断功能了解实例健康状态:

  • 定位解决问题:在操作实例过程中遇到问题,需要进行针对性的问题诊断以寻求修复方法,例如网络连接不通。

  • 定期全面检查:在日常运维中,需要全面了解实例整体的健康情况,以便及时发现并处理异常情况,避免影响业务。

说明

实例健康诊断功能为各诊断项提供了问题说明和修复建议,更多信息,请参见诊断项与诊断问题说明

操作步骤

  1. 查询诊断指标。

    您可以通过DescribeDiagnosticMetrics查询诊断指标,更多已发布的诊断指标列表信息,请参见诊断项与诊断问题说明

  2. 管理诊断指标集合。

    诊断指标集合分为以下两种,您可以使用诊断指标集合创建诊断报告。

    • 公共诊断指标集合:公共诊断指标集合是由用户常见问题整理而来,帮助您更方便地使用诊断能力。

      公共诊断指标集合由阿里云进行维护,用户无法修改。您可以通过DescribeDiagnosticMetricSets查询公共诊断指标集合。当前支持的公共诊断指标集合如下所示。

      指标名称

      说明

      使用场景

      dms-instancedefault

      默认诊断集合

      用于对ECS进行全面的检查。

    • 自定义诊断指标集合:如果您只关注部分诊断指标,可以通过CreateDiagnosticMetricSet灵活创建诊断指标集合。创建完成后,可以通过DescribeDiagnosticMetricSets查询已创建的诊断指标集合。

      当返回结果如下所示时,说明已创建名称为test的自定义诊断指标集合。

      {
        "RequestId": "6AF68D67-601A-5278-AB10-4195CCA7****",
        "MetricSets": [
          {
            "Type": "User",
            "MetricIds": [
              "Instance.ControllerError",
              "Instance.CPUException",
              "Instance.CPUSplitLock"
            ],
            "MetricSetId": "dms-uf6ck3iljpbft15i****",
            "ResourceType": "instance",
            "MetricSetName": "test"
          }
        ]
      }
  3. 创建诊断报告。

    您可以通过CreateDiagnosticReport使用创建的诊断指标集合或者公共诊断指标集合创建诊断报告。

    当返回结果如下所示时,说明已成功创建诊断报告。

    {
      "RequestId": "A1283ACE-2F19-54B9-9464-401EBD1A****",
      "ReportId": "dr-uf6aacg5g2fjp64i****"
    }
  4. 查询诊断报告。

    您可以通过DescribeDiagnosticReports查询报告的详情,报告会返回诊断集每个诊断指标的诊断结果。更多诊断项结果详情,请参见诊断项与诊断问题说明

    当返回结果如下所示时,说明诊断正常,没有发现问题。

    {
      "RequestId": "20381C19-C31B-52AE-AC9B-8AD672E4****",
      "NextToken": "",
      "Reports": [
        {
          "Status": "Finished",
          "EndTime": "2022-09-07T15:36Z",
          "ResourceId": "i-uf653eye7pkftni****",
          "MetricSetId": "dms-uf6ck3iljpbft15i****",
          "Issues": [],
          "StartTime": "2022-09-05T15:36Z",
          "CreationTime": "2022-09-07T15:36Z",
          "ReportId": "dr-uf6aacg5g2fjp64i****",
          "ResourceType": "instance",
          "Severity": "Normal",
          "FinishedTime": "2022-09-07T15:36Z"
        }
      ]
    }

相关文档

阿里云首页 云服务器 ECS 相关技术圈