本文介绍HDFS监控的概览和详细信息。

前提条件

已创建Hadhoop、Druid或Flink类型的集群。

监控入口

  1. 登录阿里云 E-MapReduce 控制台
  2. 单击上方的监控大盘
  3. 在左侧导航栏中,单击集群监控
  4. 集群状态列表页面,单击待查看集群所在行的监控详情
  5. 在左侧导航栏中,单击服务监控 > HDFS,进入HDFS服务监控概览页面。

HDFS 监控概览页

HDFS监控概览页面,展示了该集群HDFS服务相关的核心指标数据图表、最近的告警和异常信息、概览信息、Namenode状态列表和DataNode状态列表。

overview_HDFS
  • HDFS基础指标数据图表,默认显示当天的告警数据、HDFS容量、块数量、文件总数、数据块CheckSum操作平均时间、数据块汇报操作平均时间、NameNode主备状态和NameNode是否进入安全模式。
  • HDFS相关告警:展示该集群当天与HDFS服务相关的严重异常事件。
    HDFS 相关告警
  • 概览信息。Overview
  • NameNode状态列表:列出了当前NameNode以及当前的状态。NameNode_statu
    参数 说明
    主机名称 当前NameNode的主机名称。单击主机名称可查看该节点的监控详情信息。
    主机状态 当前NameNode的主备状态,HA集群会有Active和Standby区分,非HA集群正常都是Active状态。
    是否进入安全模式 包括是和否。
    端口状态 显示当前NameNode进程的端口是否正常,绿色表示正常、红色表示异常。
    进程CPU使用率 当前NameNode进程的CPU使用率。
    Memory 当前NameNode进程的内存使用情况,包括 Heap Committed、Heap Init、Heap Max、Heap Used、NonHeap Committed、NonHeap Init和NonHeap Used。
    JVM GC统计信息 使用jstat -gcutil的格式展示了当前NameNode java进程的GC统计数据:
    • O:老年代使用百分比。
    • E:Eden区容量使用比例。
    • M:元数据区使用比例。
    • CCS:压缩使用比例。
    • YGCT:年轻代垃圾回收消耗时间。
    • FGCT:老年代垃圾回收消耗时间。
    • GCT:垃圾回收消耗总时间。
    • YGC:年轻代垃圾回收次数。
    • FGC:老年代垃圾回收次数。
  • DataNode状态列表:列出了当前DataNode以及当前的状态。DataNode
    参数 说明
    节点 DataNode节点名称。
    最近一次心跳到当前时刻的时间 最近一次心跳是多少秒之前。
    状态 DataNode节点状态,可能的取值为 In Service、Decommission In Progress、Decommissioned、Entering Maintenance、In Maintenance。
    HDFS容量 当前DataNode配置的HDFS容量。
    DFS文件系统使用量 当前DataNode 已经使用的HDFS容量。
    非DFS文件系统使用量 当前DataNode已经使用的Non DFS容量。
    DFS容量剩余量 当前DataNode剩余的HDFS容量。
    块数量 当前DataNode 上block数量。
    数据块池使用量 当前DataNode上block pool的使用量。
    坏卷数量 当前DataNode上failed volume数量。
    版本信息 HDFS部署版本信息。

HDFS NameNode监控详情页

在HDFS监控概览页,单击NameNode状态列表的主机名称,可以进入对应NameNode监控详情页面。

  • NameNode进程JVM指标 :NameNode 进程JVM GC不同内存分区统计情况。JVM指标
    • NameNode进程内存使用情况,图表支持自定义选择时间颗粒度和时间范围。
      参数 说明
      S0 存活区 0(Survivor 0)容量使用比例。
      S1 存活区 1(Survivor 1)容量使用比例。
      E Eden区容量使用比例。
      O 老年代区(Old)容量使用比例。
      M 元数据区域(Metaspace)容量使用比例。
      CCS 压缩类区域(Compressed class space )容量使用比例。
    • NameNode进程GC时间统计。
      参数 说明
      YGCT 年轻代垃圾回收消耗时间。
      FGCT 老年代垃圾回收消耗时间。
      GCT 垃圾回收消耗总时间。
    • NameNode 进程GC次数统计。
      参数 说明
      Young GC次数 年轻代垃圾回收消耗次数。
      Full GC次数 老年代垃圾回收消耗次数。
    • NameNode进程堆内存:最大的堆内存、初始化的堆内存、提交的堆内存和使用的堆内存。
    • NameNode进程非堆内存:初始化的非堆内存、提交的非堆内存和使用的非堆内存。
  • NameNode进程文件描述符统计信息,展示了NameNode进程可以使用的最大文件描述符数目和当前已经使用的文件描述符数目。
  • NameNode进程RPC性能指标。
    • RPC调用队列长度:当前NameNode RPC端口上的RPC调用队列长度,可以反应RPC的请求处理的堆积情况。
    • 接收的字节数:当前NameNode RPC端口上总的接收数据量大小。
    • 发送的字节数:当前NameNode RPC端口上总的发送数据量大小。
    • 打开的链接数:当前NameNode PRC端口上打开的连接数。
    • RPC调用平均排队时间:RPC请求的平均排队时间。
    • RPC调用平均处理时间:RPC请求的平均处理时间。
  • NameNode 进程启停操作历史。namenode进程
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程 ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程 ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。

    所有通过EMR控制台对进程的启动、停止操作以及进程由于异常退出被EMR agent自动拉起的记录,都会在这里列出。

HDFS DataNode 监控详情页

在HDFS监控概览页,单击DataNode状态列表的主机名称,可以进入对应DataNode监控详情页面。

  • DataNode 核心指标,包括DataNode 进程内存使用情况、DataNode 进程GC时间、DataNode 进程GC次数、堆内存、非堆内存、Bytes Read/Written、Block Operation Count、Opereation Average Time(1)和Opereation Average Time(2)。
  • DataNode 进程启停历史。
    参数 说明
    时间 操作发生的时间点。
    启动/重启/停止 说明本次对组件操作的类型,包括启动、停止和重启。
    是否自动拉起 说明本次操作是否由E-MapReduce的保活机制自动拉起,对于异常退出的组件,EMR Agent自动拉起保证服务的可用性。
    启动用户 本次操作的Linux用户,对于停止状态的进程无该信息。
    PID 本次操作产生的进程 ID,对于停止状态的进程无该信息。
    PPID 本次操作产生的父进程 ID,对于停止状态的进程无该信息。
    启动参数 本次操作产生的进程的详细启动参数,对于停止状态的进程无该信息。