如何查看集群日报并了解集群的健康状态_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

您可以通过集群的集群日报功能，了解当前集群的健康状态，并根据改进建议对集群进行调整，以保持健康的状态。

注意信息

默认情况下，Hadoop集群健康检查功能不包括集群日报分析。如果您需要查看集群日报分析，则需要开通EMR Doctor。开通EMR Doctor的具体操作，请参见开通EMR Doctor（Hadoop集群类型）。

查看报告

进入监控诊断页面。
1. 登录E-MapReduce控制台。
2. 在顶部菜单栏处，根据实际情况选择地域和资源组。
3. 在集群管理页面，单击目标集群的集群ID。
4. 单击上方的监控诊断页签。
单击集群日报页签，您可以看到当前集群的所有健康诊断报告列表。
集群日报区域的健康状态列显示了该集群的健康度。集群健康状态信息如下表所示。
健康状态
描述
0 <= x <= 60
集群处于不健康状态，请及时处理。
60 < x <= 80
集群处于亚健康状态，建议优化。
80 < x <= 100
集群处于健康状态，无需处理。
说明
集群状态以分数表示，取值为0~100。
查看报告详情。
单击操作列的查看报告，可以查看当前集群详细检查信息。
该页面为您展示集群健康状态总览，报告的基本信息，例如健康评分、当前集群ID、报告ID和诊断时间等。针对不同类型的集群，报告总览会展示诊断项以及诊断项的总览分析。总览分析会将集群的问题进行汇总分析，简明扼要地指出问题，具体的问题分析您可以查看后面的诊断项详细分析。

资源分析

计算资源

详细信息

该页面为您展示计算资源的详细分析。您可以了解到集群计算资源使用的基本信息，例如计算得分、扫描的任务数和任务的状态分布。同时为您指明具体的问题，例如内存使用率过低等，您可以根据后面的具体任务得分进行处理。

计算基础信息

该区域为您展示集群计算评分趋势图、集群算力内存时（GB*Sec）趋势图和集群算力CPU时（VCore*Sec）趋势图，以及计算任务的综合健康评分、各分数段任务数量的分布以及相关的趋势图。

管理算力内存时和算力CPU时的定义如下表。

指标	描述
*集群算力内存时（GBHour）**	集群所有任务的算力内存时之和，任务的算力内存时是一个累积值，计算方式是`任务分配的内存（GB）* 任务的运行时间（Hours）`。
*集群算力CPU时（CoreHour）**	集群所有任务的算力CPU时之和，任务的算力CPU时是一个累积值，计算方式是`任务的分配的CPU核数（Cores）* 任务的运行时间（Hours）`。

计算引擎分析

该区域为您展示以下图表信息：

计算引擎评分趋势图
计算引擎任务数量趋势图
计算引擎内存算力时饼图、趋势图
计算引擎算力CPU时饼图、趋势图

计算队列信息

该区域为您展示计算队列算力内存时Top 20的图表信息。

计算任务信息

EMR Doctor采集计算任务，处理和分析后为您展示影响集群最重要的任务，您可以进行针对性的调优、处理，从而增强集群的计算效率，提升集群的使用率，达到增效的目的。

目前支持任务算力内存时（GB*Sec）Top50和计算任务评分倒序Top50任务列表。每条数据包含以下信息。

参数	说明
任务名	任务的名称。
引擎类型	任务的引擎类型。
SQL语句	仅SQL类才有。
APP IDS	对于Hive on MR，一个语句可能有多个APP ID。
用户名	提交任务的用户。
评分	任务得分。
健康状态	标记任务是否需要治理。
建议	指明任务的优化方向。
*内存时（GBSec）**	任务的算力内存时之和。
内存利用率	任务的平均内存利用率。
*CPU时（vCoreSec）**	任务的算力CPU时之和。
CPU利用率	任务的平均CPU利用率。
当前配置	任务当前的配置，可以配合建议来考虑如何调整当前配置。
IO信息	任务的读写、Shuffle等数据。

YARN调度资源

您可以通过YARN调度资源分析了解到最准确的YARN引擎、队列、用户等维度下的资源使用和任务运行分布。

详细分析

该页面为您展示YARN调度资源的详细分析。在详细分析中，您可以了解到YARN内存资源使用、任务运行数量、不健康节点等分析。对于有着明显的资源使用波峰波谷以及任务运行的繁忙期和空闲期，详细分析中将为您具体指出内存资源使用以及任务运行的峰谷时段，您可以配合图表中的使用曲线了解资源使用情况。

YARN基础信息

在YARN基础信息中，您可以获取YARN全天结束的任务数量、Failed和Killed任务数量、算力内存时、算力CPU时以及以下图表信息：

YARN内存资源使用趋势图
YARN CPU资源使用趋势图
YARN运行中任务数量趋势图

YARN引擎信息

该区域为您展示以下图表信息：

引擎算力内存时分布饼图
引擎任务数量分布饼图

YARN用户信息

该区域为您展示以下图表信息：

用户算力内存时分布饼图
用户任务数量分布饼图

YARN队列信息

该区域为您展示以下图表信息：

队列算力内存时分布饼图
队列任务数量分布饼图

YARN不健康节点信息

YARN不健康节点信息为您展示全天中出现过不健康状态的节点Hostname，以及它们不健康状态的起止时间、持续时间和YARN提供的Health report。

HDFS存储资源

EMR Doctor默认不会采集存储资源信息，如果您想分析HDFS或者Hive的存储资源，可以在监控诊断 > 集群日报中打开存储资源信息采集开关，或者根据配置说明中修改采集存储信息。

详细分析

该页面为您展示HDFS存储资源的详细分析。在详细分析中，您可以了解到集群资源的基本状态，例如总文件数和总存储量等。同时为您指明具体的问题，例如小文件数占比过高、冷数据存储量占比过高等。在具体问题中会告知您出现问题的目录位置以及处理方式，您可以进行对应处理。

HDFS基础信息

在HDFS基础信息中，您可以获取以下图表信息：

存储量趋势图
文件数趋势图
HDFS存储评分趋势图
文件总数，总存储量，小文件、极小文件个数，冷数据存储大小

HDFS使用分析

在HDFS使用分析中，您可以获取以下图表信息：

HDFS User存储使用量饼图
HDFS User文件数量饼图
HDFS Group存储使用量饼图
HDFS Group文件数量饼图
HDFS文件大小分布饼图
HDFS冷热数据分布饼图
HDFS一级目录存储量分布

目录文件大小分布信息

HDFS的小文件会导致NameNode压力以及分片问题，所以HDFS小文件是一个非常重要的指标。目录文件大小分布信息会展示空文件、极小文件、小文件、中等文件以及大文件在各个层级目录下的比例分布，目前EMR Doctor分析支持四级目录的下钻分析。

文件定义如下表所示。

参数	描述
空文件	大小为0的文件。
极小文件	大于0且小于1 MB的文件。
小文件	大于等于1且小于128 MB的文件。
中等文件	大于等于128 MB且小于等于1 GB的文件。
大文件	大于1 GB的文件。

目录文件大小分布信息中会展示以下信息：

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

目录冷热数据分布信息

冷数据是长时间不访问的数据，推荐放到冷备存储，例如OSS冷备等。目录冷热数据分布可以帮助您了解集群使用情况，有针对性的进行成本优化。目录冷热数据分布信息会展示极冷数据、冷数据、温数据、热数据在各个层级目录下的比例分布，目前EMR Doctor分析支持四级目录的下钻分析。

参数	描述
极冷数据	超过3个月未访问的数据。
冷数据	超过1个月未访问，但三个月内有访问的数据。
温数据	超过7天未访问，但一个月内有访问的数据。
热数据	近7天有访问的数据。

在目录冷热数据分布信息中会展示如下信息：

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

HBase存储资源

详细分析

该页面为您展示HBase存储资源的详细分析。在详细分析中，您可以了解HBase使用的基本状态，例如集群平均负载、集群分区均衡度，以及RegionServer和用户表的健康状态。同时为您指明具体的问题，例如集群平均负载偏高、集群分区均衡度偏低，以及RegionServer和表健康度异常等。在具体问题中会告知您出现问题的RegionServer、表以及分区等信息，您可以进行相应的优化。

集群总览分析

在集群总览信息中，您可以获取以下图表信息：

集群健康度评分趋势图
集群分区均衡度趋势图
集群分区数量分布饼图
集群请求数趋势图
总表数、总分区数、总节点数、平均负载、总数据量、总读请求数、总写请求数、总请求数

RegionServer相关信息

在RegionServer相关信息中展示RegionServer的缓存命中率、GC平均耗时以及单日读、写请求数等详细信息。

缓存命中率倒序排名：RegionServer、缓存命中率
GC平均时间排名：RegionServer、GC平均时间
单日读请求排名：RegionServer、读请求数
单日读请求日环比排名：RegionServer、读请求日环比增量
单日写请求排名：RegionServer、写请求数
单日写请日环比排名：RegionServer、写请求日环比增量

表相关信息

在表相关信息中展示表热点分区、表数据量、表分区数，以及表读写请求数等详细信息。

存在分区热点的表详细信息
表分区均衡度倒排Top
表分区平均数据量倒排Top
表数据量Top
表数据量日环比Top
表分区数Top
表分区日环比Top
表读请求数Top
表读请求数日环比Top
表写请求数Top
表写请求数日环比Top

Hive存储资源

详细分析

该页面为您展示了Hive存储资源的详细分析。在详细分析中，您可以了解Hive使用的基本状态，例如总的Hive库数，总的Hive表数，Hive表总文件数和总存储量等。同时为您指明具体的问题，例如小文件数占比过高，冷数据存储量过多，以及存储格式分布不合理等。在具体问题中会告知您出现问题的库、表以及处理方式，您可以进行对应处理。

Hive基础信息

该区域汇总了Hive使用过程中常用的几个存储指标，包含存储使用量趋势，文件数量趋势及评分趋势等。

Hive使用量分析

在Hive使用分析中，您可以获取以下图表：

Hive库存储量使用量分布图
Hive用户总存储量分布
Hive表文件大小分布比例
Hive表热冷数据分布
Hive表存储格式分布

Hive详细信息

在Hive信息中会展示Hive库和Hive表的详细信息。

Hive库信息

Hive库信息包含以下部分：

Hive库详细信息
Hive库文件大小分布Top信息
Hive库冷热数据分布Top信息
Hive库存储格式分布Top信息

Hive库详细信息提供以下数据：

存储使用量排名：名称、存储量，日环比和日增量。
文件数量排名：名称、文件数量、日环比和日增量。
评分排名：分数排名。
分区个数排名：名称、分区个数、日环比和日增量。

Hive文件大小分布Top信息提供以下数据：

Hive库空文件个数Top
Hive库极小文件个数Top
Hive库小文件个数Top
Hive库中等文件个数Top
Hive库大文件个数Top

说明

Hive小文件会导致NameNode压力以及分片问题，大量的小文件会严重拖累计算流程，所以Hive小文件是一个非常重要的指标。

Hive库冷热数据分布Top信息会展示如下：

库极冷数据量分布Top
库冷数据量分布Top
库温数据量分布Top
库热数据量分布Top

说明

冷数据是长时间不访问的数据，推荐放到冷备存储，例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况，有针对性的进行成本优化。

Hive支持不同的存储格式，不同的存储格式对应了不同的应用场景，通常主流的列式格式会大大的节约存储成本，并提升查询效率。

Hive库存储格式分布Top信息展示如下：

库TextFile存储格式数据量分布Top
库Parquet存储格式数据量分布Top
库ORC存储格式数据量分布Top

Hive表信息

Hive表信息包含以下部分：

Hive表详细信息
Hive表文件大小分布Top信息
Hive表冷热数据分布Top信息
Hive表存储格式分布Top信息

说明

相关的功能说明请参见Hive库信息。

OSS存储资源

EMR Doctor默认不会采集OSS资源信息，如果您想分析OSS存储资源，可以在监控诊断 > 集群日报中打开存储资源信息采集开关，并完成OSS存储采集相关配置，详情请参见开通并配置OSS存储分析。

详细分析

该页面为您展示OSS（不包括OSS-HDFS）存储资源的详细分析。在详细分析中，您可以了解到OSS Bucket资源的基本状态，例如总文件数和总存储量等。同时为您指明具体的问题，例如小文件数占比过高等。在具体问题中会告知您出现问题的目录位置及相应的处理方法，以便您能够针对性地进行解决。

OSS基础信息

在OSS基础信息中，您可以获取以下图表信息：

Bucket数量
总存储量
总文件数量
小文件数量（包含空文件、极小文件）
存储量趋势
文件数量趋势

OSS使用量分析

在OSS使用量分析中，您可以获取以下图表信息：

OSS文件大小分布
OSS存储量分布
OSS大小文件数量占比趋势图

OSS Bucket汇总信息

在Bucket详细信息中，您可以获取以下图表信息：

Bucket存储量排名
Bucket文件数量排名
Bucket空文件数量排名
Bucket极小文件数量排名
Bucket小文件数量排名

OSS Bucket目录Top信息

OSS的小文件过多可能导致任务读取变慢、计算资源浪费等问题，所以OSS小文件是一个非常重要的指标。Bucket目录Top信息会展示存储量、文件数量、极小文件数量、小文件数量等指标排名靠前的具体Bucket名称、对应目录名称、文件数量及日环比变化。目前EMR Doctor分析支持四级目录的下钻分析。

文件定义如下表所示。

参数	描述
空文件	大小为0的文件。
极小文件	大于0且小于1 MB的文件。
小文件	大于等于1且小于128 MB的文件。
中等文件	大于等于128 MB且小于等于1 GB的文件。
大文件	大于1 GB的文件。

Bucket各层级目录Top信息中会展示以下信息：

存储量Top
存储量日增量Top
文件数量Top
文件数量日增量Top
极小文件数量Top
极小文件数量日增量Top
小文件数量Top
小文件数量日增量Top

健康状态	描述
0 <= x <= 60	集群处于不健康状态，请及时处理。
60 < x <= 80	集群处于亚健康状态，建议优化。
80 < x <= 100	集群处于健康状态，无需处理。