HOST

内存
指标名称 含义 单位 备注
mem_anonpages 映射到用户空间的非文件页表大小 Bytes
mem_available_percent 可用内存百分比 % 通过命令 free 查看到 available 一栏,占总内存的百分比
mem_available 可用内存大小 KB 通过命令 free 查看到 available 一栏
mem_buffers 原始磁盘块的临时存储 KB 可以通过命令 free 查看
mem_cached 从磁盘读取文件的页缓存 KB 可以通过命令 free 查看
mem_dirty 内存脏页,也就是磁盘上的数据已经被改变,但是数据还没有进行刷盘 Bytes
mem_free 内存空闲 KB 可以通过命令 free 查看
mem_hardware_corrupted 损坏的 RAM 大小 Bytes
mem_mapped 内存映射空间大小 Bytes
mem_shared 共享内存 KB 比如多个进程对同一个文件的映射内存共享
mem_total 总内存大小 KB
mem_used_percent 内存使用百分比 % 计算公式为(total-free-buffer-cache)/ total
mem_writeback 当前被写回到磁盘的内存大小 Bytes
swap_free 交换内存的可用大小 KB
swap_total 交换内存的总大小 KB
CPU
指标名称 含义 单位 备注
cpu_aidle 从系统启动开始的 CPU 空闲占比 %
cpu_ctxt 每秒钟发生的 CPU 上下文切换次数 次/sec
cpu_idle CPU 当前的空闲占比 %
cpu_intr 硬中断占比 %
cpu_nice 由于设置 nice 优先级使用的 CPU 时间占比 %
cpu_num CPU 个数 1
cpu_sintr 软中断占比 %
cpu_speed CPU转速 MHz
cpu_steal 当 hypervisor 服务另一个虚拟处理器的时候,虚拟 CPU 等待实际 CPU 的时间的百分比 %
cpu_system 内核态 CPU 使用率 %
cpu_user 用户态 CPU 使用率 %
cpu_wio 用于进程等待磁盘I/O而使CPU处于空闲状态的比率 %
load_fifteen 十五分钟平均负载 1 可以通过 top 命令查看
load_five 五分钟平均负载 1 可以通过 top 命令查看
load_one 一分钟平均负载 1 可以通过 top 命令查看
磁盘
指标名称 含义 单位 备注
part_max_await IO 请求的平均处理时间在所有磁盘中最大值 ms 可以通过 iostat 查看
part_max_rawait 每个读操作平均所需的时间在所有磁盘的最大值 ms 可以通过 iostat 查看
part_max_svctm 平均每次设备 IO 操作的服务时间在所有磁盘的最大值 ms 可以通过 iostat 查看
part_max_used 磁盘空间使用率在所有磁盘中的最大值 %
part_max_util 磁盘使用率在所有磁盘中的最大值 % 可以通过 iostat 查看
part_max_wawait 每个写操作平均所需的时间在所有磁盘的最大值 ms
disk_free_absolute_dev_shm /dev/shm 磁盘剩余空间大小 GB
disk_free_absolute_mnt_diskx /mnt/disk1 磁盘剩余空间大小 GB
disk_free_absolute_rootfs 系统盘剩余空间大小 GB
disk_free_percent_mnt_diskx /mnt/diskx,x=1,2,3.. 磁盘剩余空间百分比 %
disk_free_percent_rootfs 系统盘剩余空间百分比 %
disk_free 所有磁盘剩余空间大小 GB
disk_inode_total_dev_vdx /dev/vdx 磁盘的 inode 总大小 1
disk_inode_used_percent_dev_vdx /dev/vdx 磁盘的 inode 使用占比 %
disk_io_time_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的 io 时间 ms
disk_io_time_rootfs 系统盘的 io 时间占比 %
disk_percent_io_time_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的 io 时间占比 %
disk_percent_io_time_rootfs 系统盘的 io 时间占比
disk_reads_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的读次数 1
disk_reads_rootfs 系统盘的读次数 1
disk_total 磁盘总大小 GB
disk_writes_merged_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的合并写次数 1
disk_writes_merged_rootfs 系统盘的合并写次数 1
disk_writes_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的写次数 1
disk_writes_rootfs /mnt/diskx,x=1,2,3... 系统盘的写次数 1
网络
指标名称 含义 单位 备注
bytes_in 每秒网络流入流量大小 bytes/sec
bytes_out 每秒网络流出流量大小 bytes/sec
pkts_in 每秒网络流入数据包个数 packets/sec
pkts_out 每秒网络流出数据包个数 packets/sec
tcp_activeopens 每秒打开的 tcp 个数 个数/sec
tcp_attemptfails_percentage tcp attemptfail 占比 %
tcp_attemptfails tcp attemptfail 个数 1
tcp_closed close 状态的 tcp 连接数个数 1
tcp_closewait close_wait 状态的 tcp 连接数个数 1
tcp_closing 正在关闭的 tcp 连接数个数 1
tcp_currestab 当前正在 establish 的 tcp 连接个数
tcp_established 处于 established 状态的 tcp 连接个数 1
tcp_estabresets tcp establish reset 个数 1
tcpext_listendrops tcp listen drops
tcpext_tcploss_percentage
tcp_finwait1
tcp_finwait2
tcp_incsumerrors
tcp_inerrs
tcp_insegs
tcp_lastack
tcp_listen
tcp_maxconn
tcp_outrsts
tcp_outsegs
tcp_passiveopens
tcp_retrans_percentage
tcp_retranssegs
tcp_rtoalgorithm
tcp_rtomax
tcp_rtomin
tcp_synrecv
tcp_synsent
tcp_synwait
tcp_timewait
tcp_unknown
udp_indatagrams
udp_inerrors
udp_outdatagrams
rx_bytes_eth0
rx_drops_eth0
rx_errs_eth0
rx_pkts_eth0
tx_bytes_eth0
tx_drops_eth0
tx_errs_eth0
tx_pkts_eth0
进程
指标名称 含义 单位 备注
proc_run 运行中的进程个数 1
procs_blocked 阻塞的进程个数 1
procs_created 创建的进程个数 1
proc_total 进程总数

HDFS

NameNode
指标名称 含义 单位 备注
dfs.namenode.AddBlockOps HDFS NameNode Add Block 操作数 1
dfs.namenode.AllowSnapshotOps allowSnapshot 操作的次数
dfs.namenode.BlockReceivedAndDeletedOps
dfs.namenode.BlockReportAvgTime 处理 Block Report 的平均时间 ms
dfs.namenode.BlockReportNumOps Block Report 的总数量
dfs.namenode.CacheReportAvgTime 处理 Cache Report 的平均时间 ms
dfs.namenode.CacheReportNumOps Cache Report 的总数量
dfs.namenode.CreateFileOps 创建文件操作数
dfs.namenode.CreateSnapshotOps 创建 Snapshot 操作数
dfs.namenode.CreateSymlinkOps 创建 Symlink 操作数
dfs.namenode.DeleteFileOps 删除文件操作数
dfs.namenode.DeleteSnapshotOps 删除 Snapshot 操作数
dfs.namenode.DisallowSnapshotOps disallowSnapshot 操作数
dfs.namenode.FileInfoOps getFileInfo 和 getLinkFileInfo 操作数
dfs.namenode.FilesAppended file append 操作数
dfs.namenode.FilesCreated 通过 create 或者 mkdir 操作创建的文件或者目录操作数
dfs.namenode.FilesDeleted 通过 delete 或者 rename 删除文件或者目录的操作数
dfs.namenode.FilesInGetListingOps directory list 的操作数
dfs.namenode.FilesRenamed 文件 rename 操作数
dfs.namenode.FilesTruncated 文件 truncate 操作数
dfs.namenode.FsImageLoadTime fsimage 加载时间
dfs.namenode.GetAdditionalDatanodeOps getAdditionalDatanode 操作数
dfs.namenode.GetBlockLocations GetBlockLocations 操作数
dfs.namenode.GetEditAvgTime edit 平均时间 ms
dfs.namenode.GetEditNumOps edits downloads from SecondaryNameNode 的次数
dfs.namenode.GetImageAvgTime fsimage 平均下载时间 ms
dfs.namenode.GetImageNumOps fsimage downloads from SecondaryNameNode 的次数
dfs.namenode.GetLinkTargetOps getLinkTarget 操作数
dfs.namenode.GetListingOps directory list 操作数
dfs.namenode.ListSnapshottableDirOps snapshottableDirectoryStatus 操作数
dfs.namenode.PutImageAvgTime fsimage upload 平均时间 ms
dfs.namenode.PutImageNumOps fsimage uploads to SecondaryNameNode 的次数
dfs.namenode.RenameSnapshotOps renameSnapshot 操作数
dfs.namenode.SafeModeTime 处于 safemode 的时间
dfs.namenode.SnapshotDiffReportOps getSnapshotDiffReport 操作数
dfs.namenode.StorageBlockReportOps StorageBlockReport 操作数
dfs.namenode.SyncsAvgTime Journal sync 的平均时长 ms
dfs.namenode.SyncsNumOps Journal sync 的总次数
dfs.namenode.TotalFileOps 所有文件相关操作数
dfs.namenode.TransactionsAvgTime Journal transaction 的平均时长 ms
dfs.namenode.TransactionsBatchedInSync Journal transaction 的批量 sync 的总次数
dfs.namenode.TransactionsNumOps Journal transaction 的次数
rpc.namenode.8020.CallQueueLength namenode 的 8020 端口的 CallQueueLength
rpc.namenode.8020.NumOpenConnections namenode 的 8020 端口的当前打开的连接个数
rpc.namenode.8020.ReceivedBytes namenode 的 8020 端口的接收到的数据量 Bytes
rpc.namenode.8020.RpcAuthenticationFailures namenode 的 8020 端口的 rpc authentication 失败个数
rpc.namenode.8020.RpcAuthenticationSuccesses namenode 的 8020 端口的 rpc authentication 成功个数
rpc.namenode.8020.RpcAuthorizationFailures namenode 的 8020 端口的 authorization 失败个数
rpc.namenode.8020.RpcAuthorizationSuccesses namenode 的 8020 端口的 authorization 成功个数
rpc.namenode.8020.RpcProcessingTimeAvgTime namenode 的 8020 端口的请求处理平均时间
rpc.namenode.8020.RpcProcessingTimeNumOps namenode 的 8020 端口的 rpc 请求的次数
rpc.namenode.8020.RpcQueueTimeAvgTime namenode 的 8020 端口的平均队列处理时间
rpc.namenode.8020.RpcQueueTimeNumOps namenode 的 8020 端口的 rpc 请求的次数
rpc.namenode.8020.SentBytes namenode 的 8020 端口的 rpc 发送数据 Bytes
dfs.FSNamesystem.BlockCapacity block capacity 的当前个数
dfs.FSNamesystem.BlocksTotal 所有 block 个数
dfs.FSNamesystem.CapacityRemainingGB HDFS 当前剩余容量大小 GB
dfs.FSNamesystem.CapacityRemaining HDFS 当前剩余容量大小 Bytes
dfs.FSNamesystem.CapacityTotalGB HDFS 的容量总大小 GB
dfs.FSNamesystem.CapacityTotal HDFS 的容量总大小 Bytes
dfs.FSNamesystem.CapacityUsedGB HDFS 容量使用大小 GB
dfs.FSNamesystem.CapacityUsedNonDFS 非 HDFS 的容量大小 Bytes
dfs.FSNamesystem.CapacityUsed HDFS 容量使用大小 Bytes
dfs.FSNamesystem.CorruptBlocks 副本损坏的 block 个数
dfs.FSNamesystem.ExcessBlocks excess block 个数
dfs.FSNamesystem.ExpiredHeartbeats 超时心跳的个数
dfs.FSNamesystem.FilesTotal 文件和目录的当前总个数
dfs.FSNamesystem.LastCheckpointTime 上一次 checkpoint 的时间 时间戳
dfs.FSNamesystem.LastWrittenTransactionId 写到 edit log 里面的上一个 transaction id
dfs.FSNamesystem.MillisSinceLastLoadedEdits (HA 集群独有指标)standby NameNode 上一次加载 edit log 距当前的时间间隔
dfs.FSNamesystem.MissingBlocks missing block 个数
dfs.FSNamesystem.MissingReplOneBlocks replication factor 为 1 的 missing block 个数
dfs.FSNamesystem.PendingDataNodeMessageCount (HA 集群独有指标)standby NameNode 节点 pending 的 block 相关的 message
dfs.FSNamesystem.PendingDeletionBlocks deletion pending 的 block 个数
dfs.FSNamesystem.PendingReplicationBlocks replication pending 的 block 个数
dfs.FSNamesystem.PostponedMisreplicatedBlocks (HA 集群独有指标)replication 延迟的 block 个数
dfs.FSNamesystem.ScheduledReplicationBlocks 被 schedule 做 replication 的 block 个数
dfs.FSNamesystem.Snapshots snapshot 个数
dfs.FSNamesystem.SnapshottableDirectories snapshottable 目录个数
dfs.FSNamesystem.StaleDataNodes 以为心跳超时被标记为 stale 的 datanode 个数
dfs.FSNamesystem.TotalFiles 所有文件个数
dfs.FSNamesystem.TotalLoad 当前的总的连接数
dfs.FSNamesystem.TransactionsSinceLastCheckpoint 上一次 checkpoint 的总的 transaction 个数
dfs.FSNamesystem.TransactionsSinceLastLogRoll 上一次 edit log roll 的 transaction 个数
dfs.FSNamesystem.UnderReplicatedBlocks 副本数不足的 block 个数
TotalDFSUsedPercent 集群的 HDFS 总的容量使用百分比 %
MaxDFSUsedPercent 所有 DataNode 的 HDFS 容量使用最大的百分比 %
DFSUsedPercent_hostName 主机名为 hostName 的 DataNode 的 HDFS 容量使用率
NumDeadDataNode Dead DataNode 个数
NumLostNMs Lost NodeManager 个数
dfs.NameNode.CurrentLagTxns JournalNode 落后的 transaction 个数
dfs.NameNode.LagTimeMillis JournalNode 落后的时间
dfs.NameNode.QueuedEditsSize Edit log 大小
HDFS_NameNode_ConcurrentMarkSweep_GC_CollectionCount (如果 GC 算法是 MarkSweep)NameNode 进程的 GC 次数
HDFS_NameNode_ConcurrentMarkSweep_GC_CollectionTime (如果 GC 算法是 MarkSweep)NameNode 进程的 GC 时间 ms
HDFS_NameNode_ConcurrentMarkSweep_GC_last_duration (如果 GC 算法是 MarkSweep)NameNode 进程的上一次 GC 持续时间 ms
HDFS_NameNode_Memory_Heap_committed NameNode 进程的 commit 的堆内存大小 Bytes
HDFS_NameNode_Memory_Heap_init NameNode 进程的 init 的堆内存大小 Bytes
HDFS_NameNode_Memory_Heap_max NameNode 进程的最大堆内存大小 Bytes
HDFS_NameNode_Memory_Heap_used NameNode 进程的堆内存使用大小 Bytes
HDFS_NameNode_Memory_NonHeap_committed NameNode 进程 commit 的非堆内存大小 Bytes
HDFS_NameNode_Memory_NonHeap_init NameNode 进程 init 的非堆内存大小 Bytes
HDFS_NameNode_Memory_NonHeap_max NameNode 进程的最大非堆内存大小 Bytes
HDFS_NameNode_Memory_NonHeap_used NameNode 进程使用的非堆内存大小 Bytes
HDFS_NameNode_OS_MaxFileDescriptorCount NameNode 进程使用的最大文件描述符个数
HDFS_NameNode_OS_OpenFileDescriptorCount NameNode 进程使用的文件描述符个数
HDFS_NameNode_OS_ProcessCpuTime NameNode 进程总的 CPU 使用时间
HDFS_NameNode_OS_ProcessCpuUtilization NameNode 进程的 CPU 使用率
HDFS_NameNode_ParNew_GC_CollectionCount (如果 GC 算法是 ParNew)NameNode 进程的 GC 次数
HDFS_NameNode_ParNew_GC_CollectionTime (如果 GC 算法是 ParNew)NameNode 进程的 GC 时间 ms
HDFS_NameNode_ParNew_GC_last_duration (如果 GC 算法是 ParNew)NameNode 进程的上一次 GC 持续时间 ms
HDFS_NameNode_Runtime_Uptime NameNode 进程的运行时长 ms
HDFS_NameNode_Threading_DaemonThreadCount NameNode 进程的 Daemon 进程个数
HDFS_NameNode_Threading_ThreadCount NameNode 进程的子进程个数
NameNodeActive NameNode 是否处于 Active 状态
NameNode_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
NameNode_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
NameNode_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
NameNode_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
NameNode_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
NameNode_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
NameNode_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
NameNode_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
NameNode_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
NameNode_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
NameNode_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
NameNodeHttpPortOpen NameNode 的 Http 端口是否打开 打开是 1,否则是 0
NameNodeInSafeMode NameNode 是否处于安全 SafeMode 处于安全模式是 1,否则是 0
NameNodeIpcPortOpen NameNode 的 Ipc 端口是否打开 端口打开是 1,否则是 0
DataNode
指标名称 含义 单位 备注
DataNodeHttpPortOpen DataNode 的 http 50075 端口是否打开 端口打开是 1,否则是 0
DataNodeIpcPortOpen DataNode 的 Ipc 50020 端口是否打开 端口打开是 1,否则是 0
DataNodePortOpen DataNode 的 50010 端口是否打开
dfs.datanode.BlockChecksumOpAvgTime blockChecksum 操作的平均时间 ms
dfs.datanode.BlockChecksumOpNumOps blockChecksum 操作数
dfs.datanode.BlockReportsAvgTime Block Report 操作的平均时间
dfs.datanode.BlockReportsNumOps Block Report 操作数
dfs.datanode.BlocksCached cache 的 block 数
dfs.datanode.BlocksGetLocalPathInfo get local path names of blocks 的操作数
dfs.datanode.BlocksRead 从 DataNode 读取的 block 数
dfs.datanode.BlocksRemoved remove 的 block 数
dfs.datanode.BlocksReplicated block 的副本数
dfs.datanode.BlocksUncached uncached 的 block 数
dfs.datanode.BlocksVerified verified 的 block 数
dfs.datanode.BlocksWritten 写到 DataNode 中的 block 数
dfs.datanode.BlockVerificationFailures verifications 失败的个数
dfs.datanode.BytesRead 从 DataNode 读取的数据 Bytes
dfs.datanode.BytesWritten 写到 DataNode 的数据大小 Bytes
dfs.datanode.CacheReportsAvgTime cache report 的平均时间 ms
dfs.datanode.CacheReportsNumOps cache report 操作数
dfs.datanode.CopyBlockOpAvgTime block copy 操作的平均处理时间 ms
dfs.datanode.CopyBlockOpNumOps block copy 操作数
dfs.datanode.DatanodeNetworkErrors DataNode 发送的网络错误
dfs.datanode.FlushNanosAvgTime flush 平均时长 ns
dfs.datanode.FlushNanosNumOps flush 的总次数 ns
dfs.datanode.FsyncCount fsync 的次数
dfs.datanode.FsyncNanosAvgTime fsync 的平均时长 ns
dfs.datanode.FsyncNanosNumOps fsync 的总次数
dfs.datanode.HeartbeatsAvgTime heartbeat 平均时长 ms
dfs.datanode.HeartbeatsNumOps heartbeat 总次数
dfs.datanode.IncrementalBlockReportsAvgTime incremental block report 操作的平均时长
dfs.datanode.IncrementalBlockReportsNumOps incremental block report 操作数
dfs.datanode.PacketAckRoundTripTimeNanosAvgTime ack round trip 平均时长 ns
dfs.datanode.PacketAckRoundTripTimeNanosNumOps ack round trip 总次数
dfs.datanode.RamDiskBlocksDeletedBeforeLazyPersisted 在持久化到磁盘之前删除的 block 数
dfs.datanode.RamDiskBlocksEvicted evicted 的 block 数
dfs.datanode.RamDiskBlocksEvictedWithoutRead evicted 的 block 总数
dfs.datanode.RamDiskBlocksEvictionWindowMsAvgTime Total number of blocks evicted in memory without ever being read from memory
dfs.datanode.RamDiskBlocksEvictionWindowMsNumOps evicted 的 block 数
dfs.datanode.RamDiskBlocksLazyPersisted 由 lazy writer 写到磁盘上的 block 总数
dfs.datanode.RamDiskBlocksLazyPersistWindowMsAvgTime 由 lazy writer 写到磁盘上的 block 的平均时长
dfs.datanode.RamDiskBlocksLazyPersistWindowMsNumOps 由 lazy writer 写到磁盘上的 block 数
dfs.datanode.RamDiskBlocksReadHits block 在内存中被读取的总次数
dfs.datanode.RamDiskBlocksWriteFallback 在被写到内存中,然后 fail over 的 block 数
dfs.datanode.RamDiskBlocksWrite 写到内存中的总的 block 数
dfs.datanode.RamDiskBytesLazyPersisted 由 lazy writer 写入到磁盘上的数据的总大小 Bytes
dfs.datanode.RamDiskBytesWrite 写入到内存中的数据的总大小 Bytes
dfs.datanode.ReadBlockOpAvgTime read 操作的平均时长 ms
dfs.datanode.ReadBlockOpNumOps read 操作数
dfs.datanode.ReadsFromLocalClient local client 的 read 操作数
dfs.datanode.ReadsFromRemoteClient remote client 的 read 操作数
dfs.datanode.RemoteBytesRead 由 remote client 读取的数据大小 Bytes
dfs.datanode.RemoteBytesWritten 写到 remote client 的数据大小 Bytes
dfs.datanode.ReplaceBlockOpAvgTime block replace 操作的平均时长 ms
dfs.datanode.ReplaceBlockOpNumOps block replace 操作数
dfs.datanode.SendDataPacketBlockedOnNetworkNanosAvgTime 发送数据包的平均等待时长 ns
dfs.datanode.SendDataPacketBlockedOnNetworkNanosNumOps 发送的数据包总数
dfs.datanode.SendDataPacketTransferNanosAvgTime 发送数据包的平均传输时长 ns
dfs.datanode.SendDataPacketTransferNanosNumOps 发送数据包的总数
dfs.datanode.TotalReadTime read 操作消耗的总时长 ms
dfs.datanode.TotalWriteTime write 操作消耗的总时长 ms
dfs.datanode.VolumeFailures 所有 datanode 的 failure volume 总数
dfs.datanode.WriteBlockOpAvgTime write 操作的平均时长 ms
dfs.datanode.WriteBlockOpNumOps write 操作数
dfs.datanode.WritesFromLocalClient local client 的 write 操作数
dfs.datanode.WritesFromRemoteClient remote client 的 write 操作数
HDFS_DataNode_Memory_Heap_committed DataNode 进程 commit 的堆内存大小 Bytes
HDFS_DataNode_Memory_Heap_init DataNode 进程 init 的堆内存大小 Bytes
HDFS_DataNode_Memory_Heap_max DataNode 进程最大的堆内存大小 Bytes
HDFS_DataNode_Memory_Heap_used DataNode 进程使用的堆内存大小 Bytes
HDFS_DataNode_Memory_NonHeap_committed DataNode 进程 commit 的非堆内存大小 Bytes
HDFS_DataNode_Memory_NonHeap_init DataNode 进程 init 的非堆内存大小 Bytes
HDFS_DataNode_Memory_NonHeap_max DataNode 进程最大的非堆内存大小 Bytes
HDFS_DataNode_Memory_NonHeap_used DataNode 进程使用的非堆内存大小 Bytes
HDFS_DataNode_OS_MaxFileDescriptorCount DataNode 进程可以使用的最大文件描述符
HDFS_DataNode_OS_OpenFileDescriptorCount DataNode 进程打开的文件描述符个数
HDFS_DataNode_OS_ProcessCpuTime DataNode 进程的 CPU 使用时间 ms
HDFS_DataNode_OS_ProcessCpuUtilization DataNode 进程的 CPU 利用率
HDFS_DataNode_PS_MarkSweep_GC_CollectionCount GC 次数
HDFS_DataNode_PS_MarkSweep_GC_CollectionTime GC 总时间
HDFS_DataNode_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
HDFS_DataNode_PS_Scavenge_GC_CollectionCount GC 次数
HDFS_DataNode_PS_Scavenge_GC_CollectionTime GC 总时间
HDFS_DataNode_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HDFS_DataNode_Runtime_Uptime 进程执行时长
HDFS_DataNode_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HDFS_DataNode_Threading_ThreadCount 进程的子进程个数
NumDeadDataNode Dead 的 DataNode 个数
NumLiveDataNodes Live 的 DataNode 个数
HttpFS
指标名称 含义 单位 备注
HDFS_HttpFS_Memory_Heap_committed 进程 commit 的堆内存大小 Bytes
HDFS_HttpFS_Memory_Heap_init 进程 init 的堆内存大小 Bytes
HDFS_HttpFS_Memory_Heap_max 进程最大的堆内存大小 Bytes
HDFS_HttpFS_Memory_Heap_used 进程使用的堆内存大小 Bytes
HDFS_HttpFS_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Bytes
HDFS_HttpFS_Memory_NonHeap_init 进程 init 的非堆内存大小 Bytes
HDFS_HttpFS_Memory_NonHeap_max 进程最大的非堆内存大小 Bytes
HDFS_HttpFS_Memory_NonHeap_used 进程使用的非堆内存大小 Bytes
HDFS_HttpFS_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
HDFS_HttpFS_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
HDFS_HttpFS_OS_ProcessCpuTime 进程的 CPU 使用时间
HDFS_HttpFS_OS_ProcessCpuUtilization 进程的 CPU 利用率
HDFS_HttpFS_PS_MarkSweep_GC_CollectionCount GC 次数
HDFS_HttpFS_PS_MarkSweep_GC_CollectionTime GC 总时间
HDFS_HttpFS_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
HDFS_HttpFS_PS_Scavenge_GC_CollectionCount GC 次数
HDFS_HttpFS_PS_Scavenge_GC_CollectionTime GC 总时间
HDFS_HttpFS_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HDFS_HttpFS_Runtime_Uptime 进程执行时长 ms
HDFS_HttpFS_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HDFS_HttpFS_Threading_ThreadCount 进程的子进程个数
JournalNode
指标名称 含义 单位 备注
HDFS_JournalNode_Memory_Heap_committed 进程 commit 的堆内存大小 Bytes
HDFS_JournalNode_Memory_Heap_init 进程 init 的堆内存大小 Bytes
HDFS_JournalNode_Memory_Heap_max 进程最大的堆内存大小 Bytes
HDFS_JournalNode_Memory_Heap_used 进程使用的堆内存大小 Bytes
HDFS_JournalNode_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Bytes
HDFS_JournalNode_Memory_NonHeap_init 进程 init 的非堆内存大小 Bytes
HDFS_JournalNode_Memory_NonHeap_max 进程最大的非堆内存大小 Bytes
HDFS_JournalNode_Memory_NonHeap_used 进程使用的非堆内存大小 Bytes
HDFS_JournalNode_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
HDFS_JournalNode_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
HDFS_JournalNode_OS_ProcessCpuTime 进程的 CPU 使用时间
HDFS_JournalNode_OS_ProcessCpuUtilization 进程的 CPU 利用率
HDFS_JournalNode_PS_MarkSweep_GC_CollectionCount GC 次数
HDFS_JournalNode_PS_MarkSweep_GC_CollectionTime GC 总时间
HDFS_JournalNode_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
HDFS_JournalNode_PS_Scavenge_GC_CollectionCount GC 次数
HDFS_JournalNode_PS_Scavenge_GC_CollectionTime GC 总时间
HDFS_JournalNode_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HDFS_JournalNode_Runtime_Uptime 进程执行时长 ms
HDFS_JournalNode_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HDFS_JournalNode_Threading_ThreadCount 进程的子进程个数
JournalNodeHttpPortOpen JournalNode 的 Http 端口 8480 是否打开
JournalNodeRpcPortOpen JournalNode 的 Rpc 端口8485 是否打开
ZKFC
指标名称 含义 单位 备注
HDFS_ZKFC_Memory_Heap_committed zkfc 进程 commit 的堆内存大小 Byte
HDFS_ZKFC_Memory_Heap_init zkfc 进程 init 的堆内存大小 Byte
HDFS_ZKFC_Memory_Heap_max zkfc 进程最大的堆内存大小 Byte
HDFS_ZKFC_Memory_Heap_used zkfc 进程使用的堆内存大小 Byte
HDFS_ZKFC_Memory_NonHeap_committed zkfc 进程 commit 的非堆内存大小 Byte
HDFS_ZKFC_Memory_NonHeap_init zkfc 进程 init 的非堆内存大小 Byte
HDFS_ZKFC_Memory_NonHeap_max zkfc 进程最大的非堆内存大小 Byte
HDFS_ZKFC_Memory_NonHeap_used zkfc 进程使用的非堆内存大小 Byte
HDFS_ZKFC_OS_MaxFileDescriptorCount zkfc 进程可以使用的最大文件描述符
HDFS_ZKFC_OS_OpenFileDescriptorCount zkfc 进程打开的文件描述符个数
HDFS_ZKFC_OS_ProcessCpuTime zkfc 进程的 CPU 使用时间
HDFS_ZKFC_OS_ProcessCpuUtilization zkfc 进程的 CPU 利用率
HDFS_ZKFC_PS_MarkSweep_GC_CollectionCount GC 次数
HDFS_ZKFC_PS_MarkSweep_GC_CollectionTime GC 总时间
HDFS_ZKFC_PS_Scavenge_GC_CollectionCount GC 次数
HDFS_ZKFC_PS_Scavenge_GC_CollectionTime GC 总时间
HDFS_ZKFC_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HDFS_ZKFC_Runtime_Uptime 进程执行时长
HDFS_ZKFC_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HDFS_ZKFC_Threading_ThreadCount 进程的子进程个数
ZKFCPortOpen zkfc 的 8019 端口是否打开

YARN

Queue
指标名称 含义 单位 备注
yarn.QueueMetrics.{queueName}.running_0 当前队列中运行作业运行时间小于 60 分钟的作业个数
yarn.QueueMetrics.{queueName}.running_60 当前队列中运行作业运行时间介于 60~300 分钟的作业个数
yarn.QueueMetrics.{queueName}.running_300 当前队列中运行作业运行时间介于 300~1440 分钟的作业个数
yarn.QueueMetrics.{queueName}.running_1440 当前队列中运行作业运行时间大于 1440 分钟的作业个数
yarn.QueueMetrics.{queueName}.AppsSubmitted 当前队列历史提交作业个数
yarn.QueueMetrics.{queueName}.AppsRunning 当前队列正在运行的作业个数
yarn.QueueMetrics.{queueName}.AppsPending 当前队列 pending 的作业个数
yarn.QueueMetrics.{queueName}.AppsCompleted 当前队列完成的作业个数
yarn.QueueMetrics.{queueName}.AppsKilled 当前队列 kill 掉的作业个数
yarn.QueueMetrics.{queueName}.AppsFailed 当前队列失败的作业个数
yarn.QueueMetrics.{queueName}.AllocatedMB 当前队列分配的内存大小 MB
yarn.QueueMetrics.{queueName}.AllocatedVCores 当前队列分配的 VCore 个数
yarn.QueueMetrics.{queueName}.AllocatedContainers 当前队列分配的 container 个数
yarn.QueueMetrics.{queueName}.AggregateContainersAllocated 当前队列分配的 container 总数
yarn.QueueMetrics.{queueName}.AggregateContainersReleased 当前队列 release 的 container 总数
yarn.QueueMetrics.{queueName}.AvailableMB 当前队列当前可用的内存大小 MB
yarn.QueueMetrics.{queueName}.AvailableVCores 当前队列可用的 VCore 个数
yarn.QueueMetrics.{queueName}.PendingMB 当前队列的资源请求中 pending 的内存大小
yarn.QueueMetrics.{queueName}.PendingVCores 当前队列的资源请求中 pending 的 VCore
yarn.QueueMetrics.{queueName}.PendingContainers 当前队列的资源请求中 pending 的 container 个数
yarn.QueueMetrics.{queueName}.ReservedMB 当前队列中 reserved 内存大小
yarn.QueueMetrics.{queueName}.ReservedVCores 当前队列中 reserved 的 VCore 个数
yarn.QueueMetrics.{queueName}.ReservedContainers 当前队列中 reserved 的 container 个数
yarn.QueueMetrics.{queueName}.ActiveUsers 当前队列活跃用户数
yarn.QueueMetrics.{queueName}.ActiveApplications 当前队列中 active 的作业个数
RPC
指标名称 含义 单位 备注
rpc.yarn.8025.CallQueueLength 8025 端口的 CallQueueLength
rpc.yarn.8025.NumOpenConnections 8025 端口的当前打开的连接个数
rpc.yarn.8025.ReceivedBytes 8025 端口的接收到的数据量 Bytes
rpc.yarn.8025.RpcAuthenticationFailures 8025 端口的 rpc authentication 失败个数
rpc.yarn.8025.RpcAuthenticationSuccesses 8025 端口的 rpc authentication 成功个数
rpc.yarn.8025.RpcAuthorizationFailures 8025 端口的 authorization 失败个数
rpc.yarn.8025.RpcAuthorizationSuccesses 8025 端口的 authorization 成功个数
rpc.yarn.8025.RpcProcessingTimeAvgTime 8025 端口的请求处理平均时间
rpc.yarn.8025.RpcProcessingTimeNumOps 8025 端口的 rpc 请求的次数
rpc.yarn.8025.RpcQueueTimeAvgTime 8025 端口的平均队列处理时间
rpc.yarn.8025.RpcQueueTimeNumOps 8025 端口的 rpc 请求的次数
rpc.yarn.8025.SentBytes 8025 端口的 rpc 发送数据 Bytes
rpc.yarn.8030.CallQueueLength 8030 端口的 CallQueueLength
rpc.yarn.8030.NumOpenConnections 8030 端口的当前打开的连接个数
rpc.yarn.8030.ReceivedBytes 8030 端口的接收到的数据量 Bytes
rpc.yarn.8030.RpcAuthenticationFailures 8030 端口的 rpc authentication 失败个数
rpc.yarn.8030.RpcAuthenticationSuccesses 8030 端口的 rpc authentication 成功个数
rpc.yarn.8030.RpcAuthorizationFailures 8030 端口的 authorization 失败个数
rpc.yarn.8030.RpcAuthorizationSuccesses 8030 端口的 authorization 成功个数
rpc.yarn.8030.RpcProcessingTimeAvgTime 8030 端口的请求处理平均时间
rpc.yarn.8030.RpcProcessingTimeNumOps 8030 端口的 rpc 请求的次数
rpc.yarn.8030.RpcQueueTimeAvgTime 8030 端口的平均队列处理时间
rpc.yarn.8030.RpcQueueTimeNumOps 8030 端口的 rpc 请求的次数
rpc.yarn.8030.SentBytes 8030 端口的 rpc 发送数据量 Bytes
rpc.yarn.8032.CallQueueLength 8032 端口的 CallQueueLength
rpc.yarn.8032.NumOpenConnections 8032 端口的当前打开的连接个数
rpc.yarn.8032.ReceivedBytes 8032 端口的接收到的数据量 Bytes
rpc.yarn.8032.RpcAuthenticationFailures 8032 端口的 rpc authentication 失败个数
rpc.yarn.8032.RpcAuthenticationSuccesses 8032 端口的 rpc authentication 成功个数
rpc.yarn.8032.RpcAuthorizationFailures 8032 端口的 authorization 失败个数
rpc.yarn.8032.RpcAuthorizationSuccesses 8032 端口的 authorization 成功个数
rpc.yarn.8032.RpcProcessingTimeAvgTime 8032 端口的请求处理平均时间
rpc.yarn.8032.RpcProcessingTimeNumOps 8032 端口的 rpc 请求的次数
rpc.yarn.8032.RpcQueueTimeAvgTime 8032 端口的平均队列处理时间
rpc.yarn.8032.RpcQueueTimeNumOps 8032 端口的 rpc 请求的次数
rpc.yarn.8032.SentBytes 8032 端口的 rpc 发送数据量 Bytes
rpc.yarn.8033.CallQueueLength 8033 端口的 CallQueueLength
rpc.yarn.8033.NumOpenConnections 8033 端口的当前打开的连接个数
rpc.yarn.8033.ReceivedBytes 8033 端口的接收到的数据量
rpc.yarn.8033.RpcAuthenticationFailures 8033 端口的 rpc authentication 失败个数
rpc.yarn.8033.RpcAuthenticationSuccesses 8033 端口的 rpc authentication 成功个数
rpc.yarn.8033.RpcAuthorizationFailures 8033 端口的 authorization 失败个数
rpc.yarn.8033.RpcAuthorizationSuccesses 8033 端口的 authorization 成功个数
rpc.yarn.8033.RpcProcessingTimeAvgTime 8033 端口的请求处理平均时间
rpc.yarn.8033.RpcProcessingTimeNumOps 8033 端口的 rpc 请求的次数
rpc.yarn.8033.RpcQueueTimeAvgTime 8033 端口的平均队列处理时间
rpc.yarn.8033.RpcQueueTimeNumOps 8033 端口的 rpc 请求的次数
rpc.yarn.8033.SentBytes 8033 端口的 rpc 发送数据量 Bytes
ResourceManager
指标名称 含义 单位 备注
ResourceManagerActive ResourceManager 节点是否是 Active
ResourceManagerAdminPortOpen ResourceManager 的 Admin 端口 8033 是否打开
ResourceManager_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
ResourceManager_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
ResourceManager_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
ResourceManager_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
ResourceManager_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
ResourceManager_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
ResourceManagerPortOpen ResourceManager 8032 端口是否打开
ResourceManagerResourcetrackerPortOpen ResoureManager 8025 端口是否打开
ResourceManagerSchedulerPortOpen ResourceManager 8030 端口是否打开
ResourceManagerWebappPortOpen ResourceManager 8088 端口是否打开
YARN_ResourceManager_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
YARN_ResourceManager_Memory_Heap_init 进程 init 的堆内存大小 Byte
YARN_ResourceManager_Memory_Heap_max 进程最大的堆内存大小 Byte
YARN_ResourceManager_Memory_Heap_used 进程使用的堆内存大小 Byte
YARN_ResourceManager_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
YARN_ResourceManager_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
YARN_ResourceManager_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
YARN_ResourceManager_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
YARN_ResourceManager_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
YARN_ResourceManager_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
YARN_ResourceManager_OS_ProcessCpuTime 进程的 CPU 使用时间
YARN_ResourceManager_OS_ProcessCpuUtilization 进程的 CPU 利用率
YARN_ResourceManager_PS_MarkSweep_GC_CollectionCount GC 次数
YARN_ResourceManager_PS_MarkSweep_GC_CollectionTime GC 总时间
YARN_ResourceManager_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
YARN_ResourceManager_PS_Scavenge_GC_CollectionCount GC 次数
YARN_ResourceManager_PS_Scavenge_GC_CollectionTime GC 总时间
YARN_ResourceManager_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
YARN_ResourceManager_Runtime_Uptime 进程执行时长
YARN_ResourceManager_Threading_DaemonThreadCount 进程的 Daemon 进程个数
YARN_ResourceManager_Threading_ThreadCount 进程的子进程个数
NodeManager
指标名称 含义 单位 备注
NodeManagerHttpPortOpen NodeManager 的 http 端口 8042 是否打开
rpcdetailed.rpcdetailed.RegisterNodeManagerAvgTime NodeManager 注册平均时长 ms
rpcdetailed.rpcdetailed.RegisterNodeManagerNumOps NodeManager 注册数
YARN_NodeManager_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
YARN_NodeManager_Memory_Heap_init 进程 init 的堆内存大小 Byte
YARN_NodeManager_Memory_Heap_max 进程最大的堆内存大小 Byte
YARN_NodeManager_Memory_Heap_used 进程使用的堆内存大小 Byte
YARN_NodeManager_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
YARN_NodeManager_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
YARN_NodeManager_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
YARN_NodeManager_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
yarn.NodeManagerMetrics.AllocatedContainers NodeManager 分配的 container 数量
yarn.NodeManagerMetrics.AllocatedGB NodeManager 分配的内存大小 GB
yarn.NodeManagerMetrics.AllocatedVCores NodeManager 分配的 VCore
yarn.NodeManagerMetrics.AvailableGB NodeManager 可用的内存大小 GB
yarn.NodeManagerMetrics.AvailableVCores NodeManager 可用的 VCore 个数
yarn.NodeManagerMetrics.ContainerLaunchDurationAvgTime container launch 平均时长
yarn.NodeManagerMetrics.ContainerLaunchDurationNumOps container launch 的操作数
yarn.NodeManagerMetrics.ContainersCompleted 运行完成的 container 个数
yarn.NodeManagerMetrics.ContainersFailed 失败的 container 个数
yarn.NodeManagerMetrics.ContainersIniting 初始化中的 container 个数
yarn.NodeManagerMetrics.ContainersKilled 被 kill 的 container 个数
yarn.NodeManagerMetrics.ContainersLaunched launch 的 container 个数
yarn.NodeManagerMetrics.ContainersRunning 正在运行的 container 个数
YARN_NodeManager_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
YARN_NodeManager_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
YARN_NodeManager_OS_ProcessCpuTime 进程的 CPU 使用时间
YARN_NodeManager_OS_ProcessCpuUtilization 进程的 CPU 利用率
YARN_NodeManager_PS_MarkSweep_GC_CollectionCount GC 次数
YARN_NodeManager_PS_MarkSweep_GC_CollectionTime GC 总时间
YARN_NodeManager_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
YARN_NodeManager_PS_Scavenge_GC_CollectionCount GC 次数
YARN_NodeManager_PS_Scavenge_GC_CollectionTime GC 总时间
YARN_NodeManager_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
YARN_NodeManager_Runtime_Uptime 进程执行时长
YARN_NodeManager_Threading_DaemonThreadCount 进程的 Daemon 进程个数
YARN_NodeManager_Threading_ThreadCount 进程的子进程个数
JobHistory
指标名称 含义 单位 备注
JobHistory_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
JobHistory_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
JobHistory_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
JobHistory_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
JobHistory_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
JobHistory_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
JobHistoryPortOpen JobHistory 的端口 10020 是否打开
JobHistoryWebappPortOpen Jobhistory 的端口 19888 是否打开
YARN_JobHistory_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
YARN_JobHistory_Memory_Heap_init 进程 init 的堆内存大小 Byte
YARN_JobHistory_Memory_Heap_max 进程最大的堆内存大小 Byte
YARN_JobHistory_Memory_Heap_used 进程使用的堆内存大小 Byte
YARN_JobHistory_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
YARN_JobHistory_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
YARN_JobHistory_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
YARN_JobHistory_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
YARN_JobHistory_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
YARN_JobHistory_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
YARN_JobHistory_OS_ProcessCpuTime 进程的 CPU 使用时间
YARN_JobHistory_OS_ProcessCpuUtilization 进程的 CPU 利用率
YARN_JobHistory_PS_MarkSweep_GC_CollectionCount GC 次数
YARN_JobHistory_PS_MarkSweep_GC_CollectionTime GC 总时间
YARN_JobHistory_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
YARN_JobHistory_PS_Scavenge_GC_CollectionCount GC 次数
YARN_JobHistory_PS_Scavenge_GC_CollectionTime GC 总时间
YARN_JobHistory_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
YARN_JobHistory_Runtime_Uptime 进程运行时长
YARN_JobHistory_Threading_DaemonThreadCount 进程的 Daemon 进程个数
YARN_JobHistory_Threading_ThreadCount 进程的子进程个数
TimeLineServer
指标名称 含义 单位 备注
YARN_TimeLineServer_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
YARN_TimeLineServer_Memory_Heap_init 进程 init 的堆内存大小 Byte
YARN_TimeLineServer_Memory_Heap_max 进程最大的堆内存大小 Byte
YARN_TimeLineServer_Memory_Heap_used 进程使用的堆内存大小 Byte
YARN_TimeLineServer_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
YARN_TimeLineServer_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
YARN_TimeLineServer_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
YARN_TimeLineServer_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
YARN_TimeLineServer_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
YARN_TimeLineServer_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
YARN_TimeLineServer_OS_ProcessCpuTime 进程的 CPU 使用时间
YARN_TimeLineServer_OS_ProcessCpuUtilization 进程的 CPU 利用率
YARN_TimeLineServer_PS_MarkSweep_GC_CollectionCount GC 次数
YARN_TimeLineServer_PS_MarkSweep_GC_CollectionTime GC 总时间
YARN_TimeLineServer_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
YARN_TimeLineServer_PS_Scavenge_GC_CollectionCount GC 次数
YARN_TimeLineServer_PS_Scavenge_GC_CollectionTime GC 总时间
YARN_TimeLineServer_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
YARN_TimeLineServer_Runtime_Uptime 进程执行时长
YARN_TimeLineServer_Threading_DaemonThreadCount 进程的 Daemon 进程个数
YARN_TimeLineServer_Threading_ThreadCount 进程的子进程个数
WebAppProxyServer
指标名称 含义 单位 备注
YARN_WebAppProxyServer_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
YARN_WebAppProxyServer_Memory_Heap_init 进程 init 的堆内存大小 Byte
YARN_WebAppProxyServer_Memory_Heap_max 进程最大的堆内存大小 Byte
YARN_WebAppProxyServer_Memory_Heap_used 进程使用的堆内存大小 Byte
YARN_WebAppProxyServer_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
YARN_WebAppProxyServer_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
YARN_WebAppProxyServer_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
YARN_WebAppProxyServer_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
YARN_WebAppProxyServer_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
YARN_WebAppProxyServer_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
YARN_WebAppProxyServer_OS_ProcessCpuTime 进程的 CPU 使用时间
YARN_WebAppProxyServer_OS_ProcessCpuUtilization 进程的 CPU 利用率
YARN_WebAppProxyServer_PS_MarkSweep_GC_CollectionCount GC 次数
YARN_WebAppProxyServer_PS_MarkSweep_GC_CollectionTime GC 总时间 ms
YARN_WebAppProxyServer_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 ms
YARN_WebAppProxyServer_PS_Scavenge_GC_CollectionCount GC 次数
YARN_WebAppProxyServer_PS_Scavenge_GC_CollectionTime GC 总时间
YARN_WebAppProxyServer_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
YARN_WebAppProxyServer_Runtime_Uptime 进程执行时长
YARN_WebAppProxyServer_Threading_DaemonThreadCount 进程的 Daemon 进程个数
YARN_WebAppProxyServer_Threading_ThreadCount 进程的子进程个数

HIVE

HiveServer2
指标名称 含义 单位 备注
HIVE_HiveServer2_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
HIVE_HiveServer2_Memory_Heap_init 进程 init 的堆内存大小 Byte
HIVE_HiveServer2_Memory_Heap_max 程最大的堆内存大小 Byte
HIVE_HiveServer2_Memory_Heap_used 进程使用的堆内存大小 Byte
HIVE_HiveServer2_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
HIVE_HiveServer2_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
HIVE_HiveServer2_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
HIVE_HiveServer2_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
HIVE_HiveServer2_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
HIVE_HiveServer2_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
HIVE_HiveServer2_OS_ProcessCpuTime 进程的 CPU 使用时间
HIVE_HiveServer2_OS_ProcessCpuUtilization 进程的 CPU 利用率
HIVE_HiveServer2_PS_MarkSweep_GC_CollectionCount GC 次数
HIVE_HiveServer2_PS_MarkSweep_GC_CollectionTime GC 总时间
HIVE_HiveServer2_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
HIVE_HiveServer2_PS_Scavenge_GC_CollectionCount GC 次数
HIVE_HiveServer2_PS_Scavenge_GC_CollectionTime GC 总时间
HIVE_HiveServer2_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HIVE_HiveServer2_Runtime_Uptime 进程执行时长
HIVE_HiveServer2_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HIVE_HiveServer2_Threading_ThreadCount 进程的子进程个数
hiveserver2.gc.PS-MarkSweep.count
hiveserver2.gc.PS-MarkSweep.time
hiveserver2.gc.PS-Scavenge.count
hiveserver2.gc.PS-Scavenge.time
HiveServer2_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
HiveServer2_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
HiveServer2_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
HiveServer2_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
HiveServer2_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
HiveServer2_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
hiveserver2.memory.heap.committed
hiveserver2.memory.heap.init
hiveserver2.memory.heap.max
hiveserver2.memory.heap.usage
hiveserver2.memory.heap.used
hiveserver2.memory.non-heap.committed
hiveserver2.memory.non-heap.init
hiveserver2.memory.non-heap.max
hiveserver2.memory.non-heap.usage
hiveserver2.memory.non-heap.used
hiveserver2.memory.pools.Code-Cache.usage
hiveserver2.memory.pools.Compressed-Class-Space.usage
hiveserver2.memory.pools.Metaspace.usage
hiveserver2.memory.pools.PS-Eden-Space.usage
hiveserver2.memory.pools.PS-Old-Gen.usage
hiveserver2.memory.pools.PS-Survivor-Space.usage
hiveserver2.memory.total.committed
hiveserver2.memory.total.init
hiveserver2.memory.total.max
hiveserver2.memory.total.used
HiveServer2PortOpen
hiveserver2.threads.blocked.count
hiveserver2.threads.count
hiveserver2.threads.daemon.count
hiveserver2.threads.deadlock.count
hiveserver2.threads.new.count
hiveserver2.threads.runnable.count
hiveserver2.threads.terminated.count
hiveserver2.threads.timed_waiting.count
hiveserver2.threads.waiting.count
HiveServer2WebuiPortOpen
MetaStore
指标名称 含义 单位 备注
HIVE_HiveMetaStore_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
HIVE_HiveMetaStore_Memory_Heap_init 进程 init 的堆内存大小 Byte
HIVE_HiveMetaStore_Memory_Heap_max 进程最大的堆内存大小 Byte
HIVE_HiveMetaStore_Memory_Heap_used 进程使用的堆内存大小 Byte
HIVE_HiveMetaStore_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
HIVE_HiveMetaStore_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
HIVE_HiveMetaStore_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
HIVE_HiveMetaStore_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
HIVE_HiveMetaStore_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
HIVE_HiveMetaStore_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
HIVE_HiveMetaStore_OS_ProcessCpuTime 进程的 CPU 使用时间
HIVE_HiveMetaStore_OS_ProcessCpuUtilization 进程的 CPU 利用率
HIVE_HiveMetaStore_PS_MarkSweep_GC_CollectionCount GC 次数
HIVE_HiveMetaStore_PS_MarkSweep_GC_CollectionTime GC 总时间
HIVE_HiveMetaStore_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
HIVE_HiveMetaStore_PS_Scavenge_GC_CollectionCount GC 次数
HIVE_HiveMetaStore_PS_Scavenge_GC_CollectionTime GC 总时间
HIVE_HiveMetaStore_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
HIVE_HiveMetaStore_Runtime_Uptime 进程执行时长
HIVE_HiveMetaStore_Threading_DaemonThreadCount 进程的 Daemon 进程个数
HIVE_HiveMetaStore_Threading_ThreadCount 进程的子进程个数
hivemetastore.gc.PS-MarkSweep.count
hivemetastore.gc.PS-MarkSweep.time
hivemetastore.gc.PS-Scavenge.count
hivemetastore.gc.PS-Scavenge.time
hivemetastore.memory.heap.committed
hivemetastore.memory.heap.init
hivemetastore.memory.heap.max
hivemetastore.memory.heap.usage
hivemetastore.memory.heap.used
hivemetastore.memory.non-heap.committed
hivemetastore.memory.non-heap.init
hivemetastore.memory.non-heap.max
hivemetastore.memory.non-heap.usage
hivemetastore.memory.non-heap.used
hivemetastore.memory.pools.Code-Cache.usage
hivemetastore.memory.pools.Compressed-Class-Space.usage
hivemetastore.memory.pools.Metaspace.usage
hivemetastore.memory.pools.PS-Eden-Space.usage
hivemetastore.memory.pools.PS-Old-Gen.usage
hivemetastore.memory.pools.PS-Survivor-Space.usage
hivemetastore.memory.total.committed
hivemetastore.memory.total.init
hivemetastore.memory.total.max
hivemetastore.memory.total.used
hivemetastore.threads.blocked.count
hivemetastore.threads.count
hivemetastore.threads.daemon.count
hivemetastore.threads.deadlock.count
hivemetastore.threads.new.count
hivemetastore.threads.runnable.count
hivemetastore.threads.terminated.count
hivemetastore.threads.timed_waiting.count
hivemetastore.threads.waiting.count
Metastore_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
Metastore_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
Metastore_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
Metastore_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
Metastore_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
Metastore_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
Metastore_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
Metastore_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
Metastore_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
Metastore_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
Metastore_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
MetastorePortOpen Metastore 的端口 9083 是否打开

SPARK

SparkHistory
指标名称 含义 单位 备注
SparkHistory_GCutil_CCS 压缩使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_E 伊甸园区使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_FGC 老年代垃圾回收次数 输出参考 jstat -gcutil
SparkHistory_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
SparkHistory_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
SparkHistory_GCutil_M 元数据区使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_O 老年代使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_S0 幸存1区当前使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_S1 幸存2区当前使用比例 输出参考 jstat -gcutil
SparkHistory_GCutil_YGC 年轻代垃圾回收次数 输出参考 jstat -gcutil
SparkHistory_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
SparkHistoryServerUiPortOpen Spark HistoryServer 端口 18080 是否打开
SPARK_SparkHistory_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
SPARK_SparkHistory_Memory_Heap_init 进程 init 的堆内存大小 Byte
SPARK_SparkHistory_Memory_Heap_max 进程最大的堆内存大小 Byte
SPARK_SparkHistory_Memory_Heap_used 进程使用的堆内存大小 Byte
SPARK_SparkHistory_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
SPARK_SparkHistory_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
SPARK_SparkHistory_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
SPARK_SparkHistory_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
SPARK_SparkHistory_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
SPARK_SparkHistory_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
SPARK_SparkHistory_OS_ProcessCpuTime 进程的 CPU 使用时间
SPARK_SparkHistory_OS_ProcessCpuUtilization 进程的 CPU 利用率
SPARK_SparkHistory_PS_MarkSweep_GC_CollectionCount GC 次数
SPARK_SparkHistory_PS_MarkSweep_GC_CollectionTime GC 总时间
SPARK_SparkHistory_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
SPARK_SparkHistory_PS_Scavenge_GC_CollectionCount GC 次数
SPARK_SparkHistory_PS_Scavenge_GC_CollectionTime GC 总时间
SPARK_SparkHistory_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
SPARK_SparkHistory_Runtime_Uptime 进程执行时长
SPARK_SparkHistory_Threading_DaemonThreadCount 进程的 Daemon 进程个数
SPARK_SparkHistory_Threading_ThreadCount 进程的子进程个数

ZOOKEEPER

ZOOKEEPER
指标名称 含义 单位 备注
zk_avg_latency zk 处理平均延迟 ms
ZKClientPortOpen zk client 端口 2181 是否打开
ZKIsLeader 当前 zk 节点是否是 leader
ZKLeaderPortOpen zk leader 端口 3888 是否打开
zk_max_file_descriptor_count zk 最大文件描述符个数
zk_max_latency zk 处理最大时延
zk_min_latency zk 处理最小时延
zk_num_alive_connections zk 活跃连接数
zk_open_file_descriptor_count zk 打开的文件描述符个数
zk_outstanding_requests 排队请求的数量
zk_packets_received zk 接收到是数据包
zk_packets_sent zk 发送的数据包
ZKPeerPortOpen zk 的 peer 端口 2888 是否打开
zk_watch_count zk 的 watch 数目
zk_znode_count zk 的 znode 数量
ZOOKEEPER_ZOOKEEPER_Memory_Heap_committed 进程 commit 的堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_Heap_init 进程 init 的堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_Heap_max 进程最大的堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_Heap_used 进程使用的堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_max 进程最大的非堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_used 进程使用的非堆内存大小 Byte
ZOOKEEPER_ZOOKEEPER_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符
ZOOKEEPER_ZOOKEEPER_OS_OpenFileDescriptorCount 进程打开的文件描述符个数
ZOOKEEPER_ZOOKEEPER_OS_ProcessCpuTime 进程的 CPU 使用时间
ZOOKEEPER_ZOOKEEPER_OS_ProcessCpuUtilization 进程的 CPU 利用率
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_CollectionCount GC 次数
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_CollectionTime GC 总时间
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_CollectionCount GC 次数
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_CollectionTime GC 总时间
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长
ZOOKEEPER_ZOOKEEPER_Runtime_Uptime 进程执行时长
ZOOKEEPER_ZOOKEEPER_Threading_DaemonThreadCount 进程的 Daemon 进程个数
ZOOKEEPER_ZOOKEEPER_Threading_ThreadCount 进程的子进程个数