E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即集群管理页面的“健康检查”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化提供有力的信息支撑。

作为EMR集群的运维人员,通常需要关注以下内容:
  • 集群的整体稳定性,包含关键服务组件的状态监控和异常处理。例如YARN、HDFS、Hive和Spark等。
  • 集群的整体有效性,例如集群的负载、集群的内存和CPU有效利用率等。
  • 集群用户的SLA,能够保证关键任务在获取足够资源的条件下按时完成。
EMR Doctor作为开源大数据集群的管家,提供以下能力:
  • 及时掌握集群健康状况,提供关键服务的使用建议,降低集群运维的成本并不断提升稳定性。
  • 获取集群资源的使用和分配状况,合理配置硬件资源,提升集群资源的利用效率。
  • 辅助调优各个组件以及运行任务,提出可操作的优化建议,保证整体数据和计算链路的高效与稳定。
EMR Doctor的主要特点如下:
  • 提供集群的实时检测功能,实时地对集群任务进行分析,异常检测,对组件状态进行检查分析,找到潜在的问题和改进建议。详情请参见启动实时检测与分析
  • 提供集群的日报功能,并提供量化打分、智能建议,您可以清晰到获取到集群的健康状态以及改进建议。详情请参见查看集群日报与分析
  • 通过对集群中各种信息进行融合分析,并根据智能算法进行智能诊断分析,减少大数据平台繁重和重复的劳动。