文档

查看集群日报与分析

更新时间:

您可以通过集群的健康检查功能,了解当前集群的健康状态,并根据改进建议对集群进行调整,以保持健康的状态。

注意信息

默认情况下,Hadoop集群健康检查功能不包括集群日报分析。如果您需要查看集群日报分析,则需要开通EMR Doctor。开通EMR Doctor的具体操作,请参见开通EMR Doctor(Hadoop集群类型)

查看报告

  1. 进入基础信息页面。

    1. 登录EMR on ECS控制台

    2. 在顶部菜单栏处,根据实际情况选择地域和资源组

    3. 单击目标集群的集群名称。

  2. 单击上方的健康检查页签。

  3. 健康检查页面,您可以看到当前集群的所有健康检查报告列表。

    集群日报区域的健康状态列显示了该集群的健康度。集群健康状态信息如下表所示。

    健康状态

    描述

    0 <= x <= 60

    集群处于不健康状态,请及时处理。

    60 < x <= 80

    集群处于亚健康状态,建议优化。

    80 < x <= 100

    集群处于健康状态,无需处理。

    说明

    集群状态以分数表示,取值为0~100。

  4. 查看报告详情。

    单击操作列的查看报告,可以查看当前集群详细检查信息。

    该页面为您展示集群健康状态总览,报告的基本信息,例如健康评分、当前集群ID、报告ID和诊断时间等。针对不同类型的集群,报告总览会展示诊断项以及诊断项的总览分析。总览分析会将集群的问题进行汇总分析,简明扼要的指出问题,具体的问题分析您可以查看后面的诊断项详细分析。

资源分析

计算资源

详细信息

该页面为您展示计算资源的详细分析。您可以了解到集群计算资源使用的基本信息,例如计算得分、扫描的任务数和任务的状态分布。同时为您指明具体的问题,例如内存使用率过低等,您可以根据后面的具体任务得分进行处理。

计算基础信息

该区域为您展示集群计算评分趋势图、集群算力内存时(GB*Sec)趋势图和集群算力CPU时(VCore*Sec)趋势图,以及计算任务的综合健康评分、各分数段任务数量的分布以及相关的趋势图。

管理算力内存时和算力CPU时的定义如下表。

指标

描述

集群算力内存时(GB*Hour)

集群所有任务的算力内存时之和,任务的算力内存时是一个累积值,计算方式是任务分配的内存(GB)* 任务的运行时间(Hours)

集群算力CPU时(Core*Hour)

集群所有任务的算力CPU时之和,任务的算力CPU时是一个累积值,计算方式是任务的分配的CPU核数(Cores)* 任务的运行时间(Hours)

计算引擎分析

该区域为您展示以下图表信息:

  • 计算引擎评分趋势图

  • 计算引擎任务数量趋势图

  • 计算引擎内存算力时饼图、趋势图

  • 计算引擎算力CPU时饼图、趋势图

计算队列信息

该区域为您展示计算队列算力内存时Top 20的图表信息。

计算任务信息

EMR Doctor采集计算任务,处理和分析后为您展示影响集群最重要的任务,您可以进行针对性的调优、处理,从而增强集群的计算效率,提升集群的使用率,达到增效的目的。

目前支持任务算力内存时(GB*Sec)Top50和计算任务评分倒序Top50任务列表。每条数据包含以下信息。

参数

说明

任务名

任务的名称。

引擎类型

任务的引擎类型。

SQL语句

仅SQL类才有。

APP IDS

对于Hive on MR,一个语句可能有多个APP ID。

用户名

提交任务的用户。

评分

任务得分。

健康状态

标记任务是否需要治理。

建议

指明任务的优化方向。

内存时(GB*Sec)

任务的算力内存时之和。

内存利用率

任务的平均内存利用率。

CPU时(vCore*Sec)

任务的算力CPU时之和。

CPU利用率

任务的平均CPU利用率。

当前配置

任务当前的配置,可以配合建议来考虑如何调整当前配置。

IO信息

任务的读写、Shuffle等数据。

YARN调度资源

您可以通过YARN调度资源分析了解到最准确的YARN引擎、队列、用户等维度下的资源使用和任务运行分布。

详细分析

该页面为您展示YARN调度资源的详细分析。在详细分析中,您可以了解到YARN内存资源使用、任务运行数量、不健康节点等分析。对于有着明显的资源使用波峰波谷以及任务运行的繁忙期和空闲期,详细分析中将为您具体指出内存资源使用以及任务运行的峰谷时段,您可以配合图表中的使用曲线了解资源使用情况。

YARN基础信息

在YARN基础信息中,您可以获取YARN全天结束的任务数量、Failed和Killed任务数量、算力内存时、算力CPU时以及以下图表信息:

  • YARN内存资源使用趋势图

  • YARN CPU资源使用趋势图

  • YARN运行中任务数量趋势图

YARN引擎信息

该区域为您展示以下图表信息:

  • 引擎算力内存时分布饼图

  • 引擎任务数量分布饼图

YARN用户信息

该区域为您展示以下图表信息:

  • 用户算力内存时分布饼图

  • 用户任务数量分布饼图

YARN队列信息

该区域为您展示以下图表信息:

  • 队列算力内存时分布饼图

  • 队列任务数量分布饼图

YARN不健康节点信息

YARN不健康节点信息为您展示全天中出现过不健康状态的节点Hostname,以及它们不健康状态的起止时间、持续时间和YARN提供的Health report。

HDFS存储资源

EMR Doctor默认不会采集存储资源信息,如果您想分析HDFS或者Hive的存储资源可以打开健康检查中的存储资源信息采集开关,或者根据配置说明中修改采集存储信息。

详细分析

该页面为您展示HDFS存储资源的详细分析。在详细分析中,您可以了解到集群资源的基本状态,例如总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高、冷数据存储量占比过高等。在具体问题中会告知您出现问题的目录位置以及处理方式,您可以进行对应处理。

HDFS基础信息

在HDFS基础信息中,您可以获取以下图表信息:

  • 存储量趋势图

  • 文件数趋势图

  • HDFS存储评分趋势图

  • 文件总数,总存储量,小文件、极小文件个数,冷数据存储大小

HDFS使用分析

在HDFS使用分析中,您可以获取以下图表信息:

  • HDFS User存储使用量饼图

  • HDFS User文件数量饼图

  • HDFS Group存储使用量饼图

  • HDFS Group文件数量饼图

  • HDFS文件大小分布饼图

  • HDFS冷热数据分布饼图

  • HDFS一级目录存储量分布

目录文件大小分布信息

HDFS的小文件会导致NameNode压力以及分片问题,所以HDFS小文件是一个非常重要的指标。目录文件大小分布信息会展示空文件、极小文件、小文件、中等文件以及大文件在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。

文件定义如下表所示。

参数

描述

空文件

大小为0的文件。

极小文件

大于0且小于1 MB的文件。

小文件

大于等于1且小于128 MB的文件。

中等文件

大于等于128 MB且小于等于1 GB的文件。

大文件

大于1 GB的文件。

目录文件大小分布信息中会展示以下信息:

  • 层级目录空文件个数Top

  • 层级目录极小文件个数Top

  • 层级目录小文件个数Top

  • 层级目录中等文件个数Top

  • 层级目录大文件个数Top

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

目录冷热数据分布信息

冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。目录冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。目录冷热数据分布信息会展示极冷数据、冷数据、温数据、热数据在各个层级目录下的比例分布,目前EMR Doctor分析支持四级目录的下钻分析。

参数

描述

极冷数据

超过3个月未访问的数据。

冷数据

超过1个月未访问,但三个月内有访问的数据。

温数据

超过7天未访问,但一个月内有访问的数据。

热数据

近7天有访问的数据。

在目录冷热数据分布信息中会展示如下信息:

  • 层级目录极冷数据量分布Top

  • 层级目录冷数据量分布Top

  • 层级目录温数据量分布Top

  • 层级目录热数据量分布Top

每个表格会展示具体路径、存储大小、日环比和日增量等信息。

HBase存储资源

详细分析

该页面为您展示HBase存储资源的详细分析。在详细分析中,您可以了解HBase使用的基本状态,例如集群平均负载、集群分区均衡度,以及RegionServer和用户表的健康状态。同时为您指明具体的问题,例如集群平均负载偏高、集群分区均衡度偏低,以及RegionServer和表健康度异常等。在具体问题中会告知您出现问题的RegionServer、表以及分区等信息,您可以进行相应的优化。

集群总览分析

在集群总览信息中,您可以获取以下图表信息:

  • 集群健康度评分趋势图

  • 集群分区均衡度趋势图

  • 集群分区数量分布饼图

  • 集群请求数趋势图

  • 总表数、总分区数、总节点数、平均负载、总数据量、总读请求数、总写请求数、总请求数

RegionServer相关信息

在RegionServer相关信息中展示RegionServer的缓存命中率、GC平均耗时以及单日读、写请求数等详细信息。

  • 缓存命中率倒序排名:RegionServer、缓存命中率

  • GC平均时间排名:RegionServer、GC平均时间

  • 单日读请求排名:RegionServer、读请求数

  • 单日读请求日环比排名:RegionServer、读请求日环比增量

  • 单日写请求排名:RegionServer、写请求数

  • 单日写请日环比排名:RegionServer、写请求日环比增量

表相关信息

在表相关信息中展示表热点分区、表数据量、表分区数,以及表读写请求数等详细信息。

  • 存在分区热点的表详细信息

  • 表分区均衡度倒排Top

  • 表分区平均数据量倒排Top

  • 表数据量Top

  • 表数据量日环比Top

  • 表分区数Top

  • 表分区日环比Top

  • 表读请求数Top

  • 表读请求数日环比Top

  • 表写请求数Top

  • 表写请求数日环比Top

Hive存储资源

详细分析

该页面为您展示了Hive存储资源的详细分析。在详细分析中,您可以了解Hive使用的基本状态,例如总的Hive库数,总的Hive表数,Hive表总文件数和总存储量等。同时为您指明具体的问题,例如小文件数占比过高,冷数据存储量过多,以及存储格式分布不合理等。在具体问题中会告知您出现问题的库、表以及处理方式,您可以进行对应处理。

Hive基础信息

该区域汇总了Hive使用过程中常用的几个存储指标,包含存储使用量趋势,文件数量趋势及评分趋势等。

Hive使用量分析

在Hive使用分析中,您可以获取以下图表:

  • Hive库存储量使用量分布图

  • Hive用户总存储量分布

  • Hive表文件大小分布比例

  • Hive表热冷数据分布

  • Hive表存储格式分布

Hive详细信息

在Hive信息中会展示Hive库和Hive表的详细信息。

Hive库信息

Hive库信息包含以下部分:

  • Hive库详细信息

  • Hive库文件大小分布Top信息

  • Hive库冷热数据分布Top信息

  • Hive库存储格式分布Top信息

Hive库详细信息提供以下数据:

  • 存储使用量排名:名称、存储量,日环比和日增量。

  • 文件数量排名:名称、文件数量、日环比和日增量。

  • 评分排名:分数排名。

  • 分区个数排名:名称、分区个数、日环比和日增量。

Hive文件大小分布Top信息提供以下数据:

  • Hive库空文件个数Top

  • Hive库极小文件个数Top

  • Hive库小文件个数Top

  • Hive库中等文件个数Top

  • Hive库大文件个数Top

说明

Hive小文件会导致NameNode压力以及分片问题,大量的小文件会严重拖累计算流程,所以Hive小文件是一个非常重要的指标。

Hive库冷热数据分布Top信息会展示如下:

  • 库极冷数据量分布Top

  • 库冷数据量分布Top

  • 库温数据量分布Top

  • 库热数据量分布Top

说明

冷数据是长时间不访问的数据,推荐放到冷备存储,例如OSS冷备等。冷热数据分布可以帮助您了解集群使用情况,有针对性的进行成本优化。

Hive支持不同的存储格式,不同的存储格式对应了不同的应用场景,通常主流的列式格式会大大的节约存储成本,并提升查询效率。

Hive库存储格式分布Top信息展示如下:

  • 库TextFile存储格式数据量分布Top

  • 库Parquet存储格式数据量分布Top

  • 库ORC存储格式数据量分布Top

Hive表信息

Hive表信息包含以下部分:

  • Hive表详细信息

  • Hive表文件大小分布Top信息

  • Hive表冷热数据分布Top信息

  • Hive表存储格式分布Top信息

说明

相关的功能说明请参见Hive库信息