您可以通过集群的集群日报功能,了解当前集群的健康状态,并根据改进建议对集群进行调整,以保持健康的状态。
注意信息
默认情况下,Hadoop集群健康检查功能不包括集群日报分析。如果您需要查看集群日报分析,则需要开通EMR Doctor。开通EMR Doctor的具体操作,请参见开通EMR Doctor(Hadoop集群类型)。
查看报告
进入监控诊断页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
在集群管理页面,单击目标集群的集群ID。
单击上方的监控诊断页签。
单击集群日报页签,您可以看到当前集群的所有健康诊断报告列表。
集群日报区域的健康状态列显示了该集群的健康度。集群健康状态信息如下表所示。
健康状态
描述
0 <= x <= 60
集群处于不健康状态,请及时处理。
60 < x <= 80
集群处于亚健康状态,建议优化。
80 < x <= 100
集群处于健康状态,无需处理。
说明集群状态以分数表示,取值为0~100。
查看报告详情。
单击操作列的查看报告,可以查看当前集群详细检查信息。
该页面为您展示集群健康状态总览,报告的基本信息,例如健康评分、当前集群ID、报告ID和诊断时间等。针对不同类型的集群,报告总览会展示诊断项以及诊断项的总览分析。总览分析会将集群的问题进行汇总分析,简明扼要地指出问题,具体的问题分析您可以查看后面的诊断项详细分析。
资源分析
计算资源
详细信息
该页面为您展示计算资源的详细分析。您可以了解到集群计算资源使用的基本信息,例如计算得分、扫描的任务数和任务的状态分布。同时为您指明具体的问题,例如内存使用率过低等,您可以根据后面的具体任务得分进行处理。
计算基础信息
该区域为您展示集群计算评分趋势图、集群算力内存时(GB*Sec)趋势图和集群算力CPU时(VCore*Sec)趋势图,以及计算任务的综合健康评分、各分数段任务数量的分布以及相关的趋势图。
管理算力内存时和算力CPU时的定义如下表。
指标 | 描述 |
集群算力内存时(GB*Hour) | 集群所有任务的算力内存时之和,任务的算力内存时是一个累积值,计算方式是 |
集群算力CPU时(Core*Hour) | 集群所有任务的算力CPU时之和,任务的算力CPU时是一个累积值,计算方式是 |
计算引擎分析
该区域为您展示以下图表信息:
计算引擎评分趋势图
计算引擎任务数量趋势图
计算引擎内存算力时饼图、趋势图
计算引擎算力CPU时饼图、趋势图
计算队列信息
该区域为您展示计算队列算力内存时Top 20的图表信息。
计算任务信息
EMR Doctor采集计算任务,处理和分析后为您展示影响集群最重要的任务,您可以进行针对性的调优、处理,从而增强集群的计算效率,提升集群的使用率,达到增效的目的。
目前支持任务算力内存时(GB*Sec)Top50和计算任务评分倒序Top50任务列表。每条数据包含以下信息。
参数 | 说明 |
任务名 | 任务的名称。 |
引擎类型 | 任务的引擎类型。 |
SQL语句 | 仅SQL类才有。 |
APP IDS | 对于Hive on MR,一个语句可能有多个APP ID。 |
用户名 | 提交任务的用户。 |
评分 | 任务得分。 |
健康状态 | 标记任务是否需要治理。 |
建议 | 指明任务的优化方向。 |
内存时(GB*Sec) | 任务的算力内存时之和。 |
内存利用率 | 任务的平均内存利用率。 |
CPU时(vCore*Sec) | 任务的算力CPU时之和。 |
CPU利用率 | 任务的平均CPU利用率。 |
当前配置 | 任务当前的配置,可以配合建议来考虑如何调整当前配置。 |
IO信息 | 任务的读写、Shuffle等数据。 |
YARN调度资源
您可以通过YARN调度资源分析了解到最准确的YARN引擎、队列、用户等维度下的资源使用和任务运行分布。
详细分析
该页面为您展示YARN调度资源的详细分析。在详细分析中,您可以了解到YARN内存资源使用、任务运行数量、不健康节点等分析。对于有着明显的资源使用波峰波谷以及任务运行的繁忙期和空闲期,详细分析中将为您具体指出内存资源使用以及任务运行的峰谷时段,您可以配合图表中的使用曲线了解资源使用情况。
YARN基础信息
在YARN基础信息中,您可以获取YARN全天结束的任务数量、Failed和Killed任务数量、算力内存时、算力CPU时以及以下图表信息:
YARN内存资源使用趋势图
YARN CPU资源使用趋势图
YARN运行中任务数量趋势图
YARN引擎信息
该区域为您展示以下图表信息:
引擎算力内存时分布饼图
引擎任务数量分布饼图
YARN用户信息
该区域为您展示以下图表信息:
用户算力内存时分布饼图
用户任务数量分布饼图
YARN队列信息
该区域为您展示以下图表信息:
队列算力内存时分布饼图
队列任务数量分布饼图
YARN不健康节点信息
YARN不健康节点信息为您展示全天中出现过不健康状态的节点Hostname,以及它们不健康状态的起止时间、持续时间和YARN提供的Health report。
HDFS存储资源
EMR Doctor默认不会采集存储资源信息,如果您想分析HDFS或者Hive的存储资源,可以在监控诊断 > 集群日报中打开存储资源信息采集开关,或者根据配置说明中修改采集存储信息。
详细分析
该页面为您展示HDFS存储资源的详细分析。在详细分析中,您可以了解到集群资源的基本状态,例如总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高、冷数据存储量占比过高等。在具体问题中会告知您出现问题的目录位置以及处理方式,您可以进行对应处理。
HDFS基础信息
在HDFS基础信息中,您可以获取以下图表信息:
存储量趋势图
文件数趋势图
HDFS存储评分趋势图
文件总数,总存储量,小文件、极小文件个数,冷数据存储大小
HDFS使用分析
在HDFS使用分析中,您可以获取以下图表信息:
HDFS User存储使用量饼图
HDFS User文件数量饼图
HDFS Group存储使用量饼图
HDFS Group文件数量饼图
HDFS文件大小分布饼图
HDFS冷热数据分布饼图
HDFS一级目录存储量分布
目录文件大小分布信息
HDFS的小文件会导致NameNode压力以及分片问题,所以HDFS小文件是一个非常重要的指标。目录文件大小分布信息会展示空文件、极小文件、小文件、中等文件以及大文件在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。
文件定义如下表所示。
参数 | 描述 |
空文件 | 大小为0的文件。 |
极小文件 | 大于0且小于1 MB的文件。 |
小文件 | 大于等于1且小于128 MB的文件。 |
中等文件 | 大于等于128 MB且小于等于1 GB的文件。 |
大文件 | 大于1 GB的文件。 |
目录文件大小分布信息中会展示以下信息:
层级目录空文件个数Top
层级目录极小文件个数Top
层级目录小文件个数Top
层级目录中等文件个数Top
层级目录大文件个数Top
每个表格会展示具体路径、存储大小、日环比和日增量等信息。
目录冷热数据分布信息
冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。目录冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。目录冷热数据分布信息会展示极冷数据、冷数据、温数据、热数据在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。
参数 | 描述 |
极冷数据 | 超过3个月未访问的数据。 |
冷数据 | 超过1个月未访问,但三个月内有访问的数据。 |
温数据 | 超过7天未访问,但一个月内有访问的数据。 |
热数据 | 近7天有访问的数据。 |
在目录冷热数据分布信息中会展示如下信息:
层级目录极冷数据量分布Top
层级目录冷数据量分布Top
层级目录温数据量分布Top
层级目录热数据量分布Top
每个表格会展示具体路径、存储大小、日环比和日增量等信息。
HBase存储资源
详细分析
该页面为您展示HBase存储资源的详细分析。在详细分析中,您可以了解HBase使用的基本状态,例如集群平均负载、集群分区均衡度,以及RegionServer和用户表的健康状态。同时为您指明具体的问题,例如集群平均负载偏高、集群分区均衡度偏低,以及RegionServer和表健康度异常等。在具体问题中会告知您出现问题的RegionServer、表以及分区等信息,您可以进行相应的优化。
集群总览分析
在集群总览信息中,您可以获取以下图表信息:
集群健康度评分趋势图
集群分区均衡度趋势图
集群分区数量分布饼图
集群请求数趋势图
总表数、总分区数、总节点数、平均负载、总数据量、总读请求数、总写请求数、总请求数
RegionServer相关信息
在RegionServer相关信息中展示RegionServer的缓存命中率、GC平均耗时以及单日读、写请求数等详细信息。
缓存命中率倒序排名:RegionServer、缓存命中率
GC平均时间排名:RegionServer、GC平均时间
单日读请求排名:RegionServer、读请求数
单日读请求日环比排名:RegionServer、读请求日环比增量
单日写请求排名:RegionServer、写请求数
单日写请日环比排名:RegionServer、写请求日环比增量
表相关信息
在表相关信息中展示表热点分区、表数据量、表分区数,以及表读写请求数等详细信息。
存在分区热点的表详细信息
表分区均衡度倒排Top
表分区平均数据量倒排Top
表数据量Top
表数据量日环比Top
表分区数Top
表分区日环比Top
表读请求数Top
表读请求数日环比Top
表写请求数Top
表写请求数日环比Top
Hive存储资源
详细分析
该页面为您展示了Hive存储资源的详细分析。在详细分析中,您可以了解Hive使用的基本状态,例如总的Hive库数,总的Hive表数,Hive表总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高,冷数据存储量过多,以及存储格式分布不合理等。在具体问题中会告知您出现问题的库、表以及处理方式,您可以进行对应处理。
Hive基础信息
该区域汇总了Hive使用过程中常用的几个存储指标,包含存储使用量趋势,文件数量趋势及评分趋势等。
Hive使用量分析
在Hive使用分析中,您可以获取以下图表:
Hive库存储量使用量分布图
Hive用户总存储量分布
Hive表文件大小分布比例
Hive表热冷数据分布
Hive表存储格式分布
Hive详细信息
在Hive信息中会展示Hive库和Hive表的详细信息。
Hive库信息
Hive库信息包含以下部分:
Hive库详细信息
Hive库文件大小分布Top信息
Hive库冷热数据分布Top信息
Hive库存储格式分布Top信息
Hive库详细信息提供以下数据:
存储使用量排名:名称、存储量,日环比和日增量。
文件数量排名:名称、文件数量、日环比和日增量。
评分排名:分数排名。
分区个数排名:名称、分区个数、日环比和日增量。
Hive文件大小分布Top信息提供以下数据:
Hive库空文件个数Top
Hive库极小文件个数Top
Hive库小文件个数Top
Hive库中等文件个数Top
Hive库大文件个数Top
Hive小文件会导致NameNode压力以及分片问题,大量的小文件会严重拖累计算流程,所以Hive小文件是一个非常重要的指标。
Hive库冷热数据分布Top信息会展示如下:
库极冷数据量分布Top
库冷数据量分布Top
库温数据量分布Top
库热数据量分布Top
冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。
Hive支持不同的存储格式,不同的存储格式对应了不同的应用场景,通常主流的列式格式会大大的节约存储成本,并提升查询效率。
Hive库存储格式分布Top信息展示如下:
库TextFile存储格式数据量分布Top
库Parquet存储格式数据量分布Top
库ORC存储格式数据量分布Top
Hive表信息
Hive表信息包含以下部分:
Hive表详细信息
Hive表文件大小分布Top信息
Hive表冷热数据分布Top信息
Hive表存储格式分布Top信息
相关的功能说明请参见Hive库信息。