启动实时检测与分析
EMR Doctor实时检测按5分钟为粒度对集群的实时状态进行检查,您可以通过实时检测了解集群当前的状态、出现的问题,以及发生问题的原因,并对相关问题进行修复,保证集群运行的稳定性。
注意信息
如果未开通EMR Doctor,则会缺失实时检测的信息,尤其是对计算任务的分析。如果您需要实时获取任务的健康分析和风险项分析,则需要开通EMR Doctor。开启健康检查功能的具体操作,请参见开通EMR Doctor(Hadoop集群类型)。
启动实时检测
进入基础信息页面。
在顶部菜单栏处,根据实际情况选择地域和资源组。
单击目标集群的集群名称。
单击上方的健康检查页签。
单击启动实时检测。
启动完成后,单击查看最新检测报告,可以查看当前集群详细的检查信息。
默认不会自动保存实时检测的报告,如果您需要查看近期的实时报告,需要手动保存。目前EMR Doctor支持保存最新30份实时检测报告。
计算资源状态分析
详细分析
该页面为您展示最近5分钟集群任务的详细分析和打分,并给出优化建议,您可以根据优化建议进行调优。同时也会展示部分存在异常行为的作业列表,您可以根据异常作业进行排查。
计算引擎信息
在计算基础信息中,您可以查看最近5分钟的不同引擎算力内存时(GB*Sec)分布饼图。
计算任务信息
EMR Doctor会采集最近5分钟完成的任务以及正在运行的任务,处理和实时分析后为您展示影响集群最重要的任务,您可以根据建议,进行针对性的调优,或者针对异常问题进行处理,从而增强集群的稳定性。
在实时检测中针对不同的计算引擎分别进行分析和异常检测。
目前支持计算任务算力内存时(GB * Sec)Top任务列表和计算任务评分倒序Top任务列表两类任务列表。每条数据包含以下信息。
参数 | 说明 |
任务名 | 任务的名称。 |
引擎类型 | 任务的引擎类型。 |
SQL语句 | 仅SQL类才有。 |
APP IDS | 对于Hive on MR,一个语句可能有多个APP ID。 |
用户名 | 提交任务的用户。 |
评分 | 任务得分。 |
健康状态 | 标记任务是否需要治理。 |
建议 | 指明任务的优化方向。 |
内存时(GB*Sec) | 任务的算力内存时之和。 |
内存利用率 | 任务的平均内存利用率。 |
CPU时(vCore*Sec) | 任务的算力CPU时之和。 |
CPU利用率 | 任务的平均CPU利用率。 |
当前配置 | 任务的当前配置,可配合建议中的信息进行配置修改和调优。 |
任务风险项列表每条数据包含以下信息。
参数 | 说明 |
APP ID | 任务的APP ID。 |
触发事件 | 任务风险项的触发时间。 |
异常描述 | 任务异常的描述。 |
报错信息 | 任务报错的具体信息。 |
建议 | 指明任务风险项的优化方向。 |
EMR Doctor会对不同引擎任务的现有问题进行总结,并指明优化方向,需要您手动进行调整并测试,EMR Doctor不对调优结果负责。