EMR Doctor概述

E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即监控诊断页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息支撑。

作为EMR集群的运维人员,通常需要关注以下内容:

  • 集群的整体稳定性,包含关键服务组件的状态监控和异常处理。例如YARN、HDFS、Hive和Spark等。

  • 集群的整体有效性,例如集群的负载、集群的内存和CPU有效利用率等。

  • 集群用户的SLA,能够保证关键任务在获取足够资源的条件下按时完成。

EMR Doctor作为开源大数据集群的管家,提供以下能力:

  • 及时掌握集群健康状况,提供关键服务的使用建议,降低集群运维的成本并不断提升稳定性。

  • 获取集群资源的使用和分配状况,合理配置硬件资源,提升集群资源的利用效率。

  • 辅助调优各个组件以及运行任务,提出可操作的优化建议,保证整体数据和计算链路的高效与稳定。

EMR Doctor的主要特点如下:

  • 提供深层次的诊断服务,以评估集群或节点的健康状态,并展示异常问题及相应的修复建议。详情请参见启动实时检测与分析

  • 提供集群的日报功能,并提供量化打分、智能建议,您可以清晰到获取到集群的健康状态以及改进建议。详情请参见查看集群日报与分析

  • 通过对集群中各种信息进行融合分析,并根据智能算法进行智能诊断分析,减少大数据平台繁重和重复的劳动。