本文介绍Spark监控的概览和详细信息。

前提条件

已创建Hadoop类型的集群。

监控入口

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的监控大盘
  3. 在左侧导航栏中,单击集群监控
  4. 集群状态列表页面,单击待查看集群所在行的监控详情
  5. 在左侧导航栏中,单击服务监控 > Spark,进入Spark服务监控概览页面。

Spark 监控概览页

Spark监控概览页面,默认展示了该集群Spark服务相关的JVM指标数据图表、最近一天的告警和异常信息和进程启停历史。

  • Spark相关告警:展示该集群当天与Spark服务相关的严重异常事件。
  • SparkHistory 进程JVM指标:展示SparkHistory 进程内存使用情况、SparkHistory 进程GC时间、SparkHistory 进程GC次数、堆内存和非堆内存。
  • SparkHistory进程文件描述符统计信息,展示了SparkHistory进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。
  • SparkHistory 进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程 ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程 ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。