本文介绍相关的监控指标信息。

HOST

内存

指标名称 含义 单位 备注
mem_anonpages 映射到用户空间的非文件页表大小 Bytes -
mem_available_percent 可用内存百分比 % 通过命令 free 查看到 available 一栏,占总内存的百分比
mem_available 可用内存大小 KB 通过命令 free 查看到 available 一栏
mem_buffers 原始磁盘块的临时存储 KB 可以通过命令 free 查看
mem_cached 从磁盘读取文件的页缓存 KB 可以通过命令 free 查看
mem_dirty 内存脏页,也就是磁盘上的数据已经被改变,但是数据还没有进行刷盘 Bytes -
mem_free 内存空闲 KB 可以通过命令 free 查看
mem_hardware_corrupted 损坏的 RAM 大小 Bytes -
mem_mapped 内存映射空间大小 Bytes -
mem_shared 共享内存 KB 例如多个进程对同一个文件的映射内存共享
mem_total 总内存大小 KB -
mem_used_percent 内存使用百分比 % 计算公式为(total-free-buffer-cache)/ total
mem_writeback 当前被写回到磁盘的内存大小 Bytes -
swap_free 交换内存的可用大小 KB -
swap_total 交换内存的总大小 KB -

CPU

指标名称 含义 单位 备注
cpu_aidle 从系统启动开始的 CPU 空闲占比 % -
cpu_ctxt 每秒钟发生的 CPU 上下文切换次数 次/sec -
cpu_idle CPU 当前的空闲占比 % -
cpu_intr 硬中断占比 % -
cpu_nice 由于设置 nice 优先级使用的 CPU 时间占比 % -
cpu_num - CPU 个数 1
cpu_sintr 软中断占比 % -
cpu_speed CPU转速 MHz -
cpu_steal 当 hypervisor 服务另一个虚拟处理器的时候,虚拟 CPU 等待实际 CPU 的时间的百分比 % -
cpu_system 内核态 CPU 使用率 % -
cpu_user 用户态 CPU 使用率 % -
cpu_wio 用于进程等待磁盘I/O而使CPU处于空闲状态的比率 % -
load_fifteen 十五分钟平均负载 1 可以通过top 命令查看
load_five 五分钟平均负载 1 可以通过 top 命令查看
load_one 一分钟平均负载 1 可以通过 top 命令查看

磁盘

指标名称 含义 单位 备注
part_max_await IO 请求的平均处理时间在所有磁盘中最大值 ms 可以通过 iostat 查看
part_max_rawait 每个读操作平均所需的时间在所有磁盘的最大值 ms 可以通过 iostat 查看
part_max_svctm 平均每次设备 IO 操作的服务时间在所有磁盘的最大值 ms 可以通过 iostat 查看
part_max_used 磁盘空间使用率在所有磁盘中的最大值 % -
part_max_util 磁盘使用率在所有磁盘中的最大值 % 可以通过 iostat 查看
part_max_wawait 每个写操作平均所需的时间在所有磁盘的最大值 ms -
disk_free_absolute_dev_shm /dev/shm 磁盘剩余空间大小 GB -
disk_free_absolute_mnt_diskx /mnt/disk1,磁盘剩余空间大小 GB -
disk_free_absolute_rootfs 系统盘剩余空间大小 GB -
disk_free_percent_mnt_diskx /mnt/diskx,x=1,2,3.. 磁盘剩余空间百分比 % -
disk_free_percent_rootfs 系统盘剩余空间百分比 % -
disk_free 所有磁盘剩余空间大小 GB -
disk_inode_total_dev_vdx /dev/vdx 磁盘的 inode 总大小 1 -
disk_inode_used_percent_dev_vdx /dev/vdx 磁盘的 inode 使用占比 % -
disk_io_time_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的 io 时间 ms -
disk_io_time_rootfs 系统盘的 io 时间占比 % -
disk_percent_io_time_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的 io 时间占比 % -
disk_percent_io_time_rootfs 系统盘的 io 时间占比 - -
disk_reads_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的读次数 1 -
disk_reads_rootfs 系统盘的读次数 1 -
disk_total 磁盘总大小 GB -
disk_writes_merged_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的合并写次数 1 -
disk_writes_merged_rootfs 系统盘的合并写次数 1 -
disk_writes_mnt_diskx /mnt/diskx,x=1,2,3... 磁盘的写次数 1 -
disk_writes_rootfs /mnt/diskx,x=1,2,3... 系统盘的写次数 1 -

网络

指标名称 含义 单位 备注
bytes_in 每秒网络流入流量大小 bytes/sec -
bytes_out 每秒网络流出流量大小 bytes/sec -
pkts_in 每秒网络流入数据包个数 packets/sec -
pkts_out 每秒网络流出数据包个数 packets/sec -
tcp_activeopens 每秒打开的 tcp 个数 个/sec -
tcp_attemptfails_percentage tcp attemptfail 占比 % -
tcp_attemptfails tcp attemptfail 个数 1 -
tcp_closed close 状态的 tcp 连接数个数 1 -
tcp_closewait close_wait 状态的 tcp 连接数个数 1 -
tcp_closing 正在关闭的 tcp 连接数个数 1 -
tcp_currestab 当前正在 establish 的 tcp 连接个数 - -
tcp_established 处于 established 状态的 tcp 连接个数 1 -
tcp_estabresets tcp establish reset 个数 1 -
tcpext_listendrops tcp listen drops - -
tcpext_tcploss_percentage - - -
tcp_finwait1 - - -
tcp_finwait2 - - -
tcp_incsumerrors - - -
tcp_inerrs - - -
tcp_insegs - - -
tcp_lastack - - -
tcp_listen - - -
tcp_maxconn - - -
tcp_outrsts - - -
tcp_outsegs - - -
tcp_passiveopens - - -
tcp_retrans_percentage - - -
tcp_retranssegs - - -
tcp_rtoalgorithm - - -
tcp_rtomax - - -
tcp_rtomin - - -
tcp_synrecv - - -
tcp_synsent - - -
tcp_synwait - - -
tcp_timewait - - -
tcp_unknown - - -
udp_indatagrams - - -
udp_inerrors - - -
udp_outdatagrams - - -
rx_bytes_eth0 - - -
rx_drops_eth0 - - -
rx_errs_eth0 - - -
rx_pkts_eth0 - - -
tx_bytes_eth0 - - -
tx_drops_eth0 - - -
tx_errs_eth0 - - -
tx_pkts_eth0 - - -

进程

指标名称 含义 单位 备注
proc_run 运行中的进程个数 1 -
procs_blocked 阻塞的进程个数 1 -
procs_created 创建的进程个数 1 -
proc_total 进程总数 - -

HDFS

NameNode

指标名称 含义 单位 备注
dfs.namenode.AddBlockOps HDFS NameNode 添加Block的操作数 1 -
dfs.namenode.AllowSnapshotOps allowSnapshot 操作的次数 - -
dfs.namenode.BlockReceivedAndDeletedOps - - -
dfs.namenode.BlockReportAvgTime 处理 Block Report 的平均时间 ms -
dfs.namenode.BlockReportNumOps Block Report 的总数量 - -
dfs.namenode.CacheReportAvgTime 处理 Cache Report 的平均时间 ms -
dfs.namenode.CacheReportNumOps Cache Report 的总数量 - -
dfs.namenode.CreateFileOps 创建文件操作数 - -
dfs.namenode.CreateSnapshotOps 创建 Snapshot 操作数 - -
dfs.namenode.CreateSymlinkOps 创建 Symlink 操作数 - -
dfs.namenode.DeleteFileOps 删除文件操作数 - -
dfs.namenode.DeleteSnapshotOps 删除 Snapshot 操作数 - -
dfs.namenode.DisallowSnapshotOps disallowSnapshot 操作数 - -
dfs.namenode.FileInfoOps getFileInfo 和 getLinkFileInfo 操作数 - -
dfs.namenode.FilesAppended file append 操作数 - -
dfs.namenode.FilesCreated 通过 create 或者 mkdir 操作创建的文件或者目录操作数 - -
dfs.namenode.FilesDeleted 通过 delete 或者 rename 删除文件或者目录的操作数 - -
dfs.namenode.FilesInGetListingOps directory list 的操作数 - -
dfs.namenode.FilesRenamed 文件 rename 操作数 - -
dfs.namenode.FilesTruncated 文件 truncate 操作数 - -
dfs.namenode.FsImageLoadTime fsimage 加载时间 - -
dfs.namenode.GetAdditionalDatanodeOps getAdditionalDatanode 操作数 - -
dfs.namenode.GetBlockLocations GetBlockLocations 操作数 - -
dfs.namenode.GetEditAvgTime edit 平均时间 ms -
dfs.namenode.GetEditNumOps 编辑从SecondaryNameNode 下载内容的次数 - -
dfs.namenode.GetImageAvgTime fsimage 平均下载时间 ms -
dfs.namenode.GetImageNumOps fsimage从 SecondaryNameNode 的次数 - -
dfs.namenode.GetLinkTargetOps getLinkTarget 操作数 - -
dfs.namenode.GetListingOps directory list 操作数 - -
dfs.namenode.ListSnapshottableDirOps snapshottableDirectoryStatus 操作数 - -
dfs.namenode.PutImageAvgTime fsimage upload 平均时间 ms -
dfs.namenode.PutImageNumOps fsimage上传到 SecondaryNameNode 的次数 - -
dfs.namenode.RenameSnapshotOps renameSnapshot 操作数 - -
dfs.namenode.SafeModeTime 处于 safemode 的时间 - -
dfs.namenode.SnapshotDiffReportOps getSnapshotDiffReport 操作数 - -
dfs.namenode.StorageBlockReportOps StorageBlockReport 操作数 - -
dfs.namenode.SyncsAvgTime Journal sync 的平均时长 ms -
dfs.namenode.SyncsNumOps Journal sync 的总次数 - -
dfs.namenode.TotalFileOps 所有文件相关操作数 - -
dfs.namenode.TransactionsAvgTime Journal transaction 的平均时长 ms -
dfs.namenode.TransactionsBatchedInSync Journal transaction 的批量 sync 的总次数 - -
dfs.namenode.TransactionsNumOps Journal transaction 的次数 - -
rpc.namenode.8020.CallQueueLength namenode 的 8020 端口的 CallQueueLength - -
rpc.namenode.8020.NumOpenConnections namenode 的 8020 端口的当前打开的连接个数 - -
rpc.namenode.8020.ReceivedBytes namenode 的 8020 端口的接收到的数据量 Bytes -
rpc.namenode.8020.RpcAuthenticationFailures namenode 的 8020 端口的 rpc身份验证失败个数 - -
rpc.namenode.8020.RpcAuthenticationSuccesses namenode 的 8020 端口的 rpc 身份验证成功个数 - -
rpc.namenode.8020.RpcAuthorizationFailures namenode 的 8020 端口的身份验证失败个数 - -
rpc.namenode.8020.RpcAuthorizationSuccesses namenode 的 8020 端口的身份验证成功个数 - -
rpc.namenode.8020.RpcProcessingTimeAvgTime namenode 的 8020 端口的请求处理平均时间 - -
rpc.namenode.8020.RpcProcessingTimeNumOps namenode 的 8020 端口的 rpc 请求的次数 - -
rpc.namenode.8020.RpcQueueTimeAvgTime namenode 的 8020 端口的平均队列处理时间 - -
rpc.namenode.8020.RpcQueueTimeNumOps namenode 的 8020 端口的 rpc 请求的次数 - -
rpc.namenode.8020.SentBytes namenode 的 8020 端口的 rpc 发送数据 Bytes -
dfs.FSNamesystem.BlockCapacity block capacity 的当前个数 - -
dfs.FSNamesystem.BlocksTotal 所有 block 个数 - -
dfs.FSNamesystem.CapacityRemainingGB HDFS 当前剩余容量大小 GB -
dfs.FSNamesystem.CapacityRemaining HDFS 当前剩余容量大小 Bytes -
dfs.FSNamesystem.CapacityTotalGB HDFS 的容量总大小 GB -
dfs.FSNamesystem.CapacityTotal HDFS 的容量总大小 Bytes -
dfs.FSNamesystem.CapacityUsedGB HDFS 容量使用大小 GB -
dfs.FSNamesystem.CapacityUsedNonDFS 非 HDFS 的容量大小 Bytes -
dfs.FSNamesystem.CapacityUsed HDFS 容量使用大小 Bytes -
dfs.FSNamesystem.CorruptBlocks 副本损坏的 block 个数 - -
dfs.FSNamesystem.ExcessBlocks excess block 个数 - -
dfs.FSNamesystem.ExpiredHeartbeats 超时心跳的个数 - -
dfs.FSNamesystem.FilesTotal 文件和目录的当前总个数 - -
dfs.FSNamesystem.LastCheckpointTime 上一次 checkpoint 的时间 时间戳 -
dfs.FSNamesystem.LastWrittenTransactionId 写到 edit log 里面的上一个 transaction id - -
dfs.FSNamesystem.MillisSinceLastLoadedEdits (HA 集群独有指标)standby NameNode 上一次加载 edit log 距当前的时间间隔 - -
dfs.FSNamesystem.MissingBlocks missing block 个数 - -
dfs.FSNamesystem.MissingReplOneBlocks replication factor 为 1 的 missing block 个数 - -
dfs.FSNamesystem.PendingDataNodeMessageCount (HA 集群独有指标)standby NameNode 节点 pending 的 block 相关的 message - -
dfs.FSNamesystem.PendingDeletionBlocks deletion pending 的 block 个数 - -
dfs.FSNamesystem.PendingReplicationBlocks replication pending 的 block 个数 - -
dfs.FSNamesystem.PostponedMisreplicatedBlocks (HA 集群独有指标)replication 延迟的 block 个数 - -
dfs.FSNamesystem.ScheduledReplicationBlocks 被 schedule 做 replication 的 block 个数 - -
dfs.FSNamesystem.Snapshots snapshot 个数 - -
dfs.FSNamesystem.SnapshottableDirectories snapshottable 目录个数 - -
dfs.FSNamesystem.StaleDataNodes 以为心跳超时被标记为 stale 的 datanode 个数 - -
dfs.FSNamesystem.TotalFiles 所有文件个数 - -
dfs.FSNamesystem.TotalLoad 当前的总的连接数 - -
dfs.FSNamesystem.TransactionsSinceLastCheckpoint 上一次 checkpoint 的总的 transaction 个数 - -
dfs.FSNamesystem.TransactionsSinceLastLogRoll 上一次 edit log roll 的 transaction 个数 - -
dfs.FSNamesystem.UnderReplicatedBlocks 副本数不足的 block 个数 - -
TotalDFSUsedPercent 集群的 HDFS 总的容量使用百分比 % -
MaxDFSUsedPercent 所有 DataNode 的 HDFS 容量使用最大的百分比 % -
DFSUsedPercent_hostName 主机名为 hostName 的 DataNode 的 HDFS 容量使用率 - -
NumDeadDataNode Dead DataNode 个数 - -
NumLostNMs Lost NodeManager 个数 - -
dfs.NameNode.CurrentLagTxns JournalNode 落后的 transaction 个数 - -
dfs.NameNode.LagTimeMillis JournalNode 落后的时间 - -
dfs.NameNode.QueuedEditsSize Edit log 大小 - -
HDFS_NameNode_ConcurrentMarkSweep_GC_CollectionCount (如果 GC 算法是 MarkSweep)NameNode 进程的 GC 次数 - -
HDFS_NameNode_ConcurrentMarkSweep_GC_CollectionTime (如果 GC 算法是 MarkSweep)NameNode 进程的 GC 时间 ms -
HDFS_NameNode_ConcurrentMarkSweep_GC_last_duration (如果 GC 算法是 MarkSweep)NameNode 进程的上一次 GC 持续时间 ms -
HDFS_NameNode_Memory_Heap_committed NameNode 进程的 commit 的堆内存大小 Bytes -
HDFS_NameNode_Memory_Heap_init NameNode 进程的 init 的堆内存大小 Bytes -
HDFS_NameNode_Memory_Heap_max NameNode 进程的最大堆内存大小 Bytes -
HDFS_NameNode_Memory_Heap_used NameNode 进程的堆内存使用大小 Bytes -
HDFS_NameNode_Memory_NonHeap_committed NameNode 进程 commit 的非堆内存大小 Bytes -
HDFS_NameNode_Memory_NonHeap_init NameNode 进程 init 的非堆内存大小 Bytes -
HDFS_NameNode_Memory_NonHeap_max NameNode 进程的最大非堆内存大小 Bytes -
HDFS_NameNode_Memory_NonHeap_used NameNode 进程使用的非堆内存大小 Bytes -
HDFS_NameNode_OS_MaxFileDescriptorCount NameNode 进程使用的最大文件描述符个数 - -
HDFS_NameNode_OS_OpenFileDescriptorCount NameNode 进程使用的文件描述符个数 - -
HDFS_NameNode_OS_ProcessCpuTime NameNode 进程总的 CPU 使用时间 - -
HDFS_NameNode_OS_ProcessCpuUtilization NameNode 进程的 CPU 使用率 - -
HDFS_NameNode_ParNew_GC_CollectionCount (如果 GC 算法是 ParNew)NameNode 进程的 GC 次数 - -
HDFS_NameNode_ParNew_GC_CollectionTime (如果 GC 算法是 ParNew)NameNode 进程的 GC 时间 ms -
HDFS_NameNode_ParNew_GC_last_duration (如果 GC 算法是 ParNew)NameNode 进程的上一次 GC 持续时间 ms -
HDFS_NameNode_Runtime_Uptime NameNode 进程的运行时长 ms -
HDFS_NameNode_Threading_DaemonThreadCount NameNode 进程的 Daemon 进程个数 - -
HDFS_NameNode_Threading_ThreadCount NameNode 进程的子进程个数 - -
NameNodeActive NameNode 是否处于 Active 状态 - -
NameNode_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
NameNode_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
NameNode_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
NameNode_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
NameNode_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
NameNode_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
NameNodeHttpPortOpen NameNode 的 Http 端口是否打开 - 打开是 1,否则是 0
NameNodeInSafeMode NameNode 是否处于安全 SafeMode - 处于安全模式是 1,否则是 0
NameNodeIpcPortOpen NameNode 的 Ipc 端口是否打开 - 端口打开是 1,否则是 0

DataNode

指标名称 含义 单位 备注
DataNodeHttpPortOpen DataNode 的 http 50075 端口是否打开 - 端口打开是 1,否则是 0
DataNodeIpcPortOpen DataNode 的 Ipc 50020 端口是否打开 - 端口打开是 1,否则是 0
DataNodePortOpen DataNode 的 50010 端口是否打开 - -
dfs.datanode.BlockChecksumOpAvgTime blockChecksum 操作的平均时间 ms -
dfs.datanode.BlockChecksumOpNumOps blockChecksum 操作数 - -
dfs.datanode.BlockReportsAvgTime Block Report 操作的平均时间 - -
dfs.datanode.BlockReportsNumOps Block Report 操作数 - -
dfs.datanode.BlocksCached cache 的 block 数 - -
dfs.datanode.BlocksGetLocalPathInfo 获取blocks本地路径名的操作数 - -
dfs.datanode.BlocksRead 从 DataNode 读取的 block 数 - -
dfs.datanode.BlocksRemoved remove 的 block 数 - -
dfs.datanode.BlocksReplicated block 的副本数 - -
dfs.datanode.BlocksUncached uncached 的 block 数 - -
dfs.datanode.BlocksVerified verified 的 block 数 - -
dfs.datanode.BlocksWritten 写到 DataNode 中的 block 数 - -
dfs.datanode.BlockVerificationFailures verifications 失败的个数 - -
dfs.datanode.BytesRead 从 DataNode 读取的数据 Bytes -
dfs.datanode.BytesWritten 写到 DataNode 的数据大小 Bytes -
dfs.datanode.CacheReportsAvgTime cache report 的平均时间 ms -
dfs.datanode.CacheReportsNumOps cache report 操作数 - -
dfs.datanode.CopyBlockOpAvgTime block copy 操作的平均处理时间 ms -
dfs.datanode.CopyBlockOpNumOps block copy 操作数 - -
dfs.datanode.DatanodeNetworkErrors DataNode 发送的网络错误 - -
dfs.datanode.FlushNanosAvgTime flush 平均时长 ns -
dfs.datanode.FlushNanosNumOps flush 的总次数 ns -
dfs.datanode.FsyncCount fsync 的次数 - -
dfs.datanode.FsyncNanosAvgTime fsync 的平均时长 ns -
dfs.datanode.FsyncNanosNumOps fsync 的总次数 - -
dfs.datanode.HeartbeatsAvgTime heartbeat 平均时长 ms -
dfs.datanode.HeartbeatsNumOps heartbeat 总次数 - -
dfs.datanode.IncrementalBlockReportsAvgTime 增量block 报告操作的平均时长 - -
dfs.datanode.IncrementalBlockReportsNumOps 增量block 报告操作数 - -
dfs.datanode.PacketAckRoundTripTimeNanosAvgTime ack round trip 平均时长 ns -
dfs.datanode.PacketAckRoundTripTimeNanosNumOps ack round trip 总次数 - -
dfs.datanode.RamDiskBlocksDeletedBeforeLazyPersisted 在持久化到磁盘之前删除的 block 数 - -
dfs.datanode.RamDiskBlocksEvicted evicted 的 block 数 - -
dfs.datanode.RamDiskBlocksEvictedWithoutRead evicted 的 block 总数 - -
dfs.datanode.RamDiskBlocksEvictionWindowMsAvgTime 在内存中evicted但从未从内存中读取的block总数 - -
dfs.datanode.RamDiskBlocksEvictionWindowMsNumOps evicted 的 block 数 - -
dfs.datanode.RamDiskBlocksLazyPersisted 由 lazy writer 写到磁盘上的 block 总数 - -
dfs.datanode.RamDiskBlocksLazyPersistWindowMsAvgTime 由 lazy writer 写到磁盘上的 block 的平均时长 - -
dfs.datanode.RamDiskBlocksLazyPersistWindowMsNumOps 由 lazy writer 写到磁盘上的 block 数 - -
dfs.datanode.RamDiskBlocksReadHits block 在内存中被读取的总次数 - -
dfs.datanode.RamDiskBlocksWriteFallback 在被写到内存中,然后 fail over 的 block 数 - -
dfs.datanode.RamDiskBlocksWrite 写到内存中的总的 block 数 - -
dfs.datanode.RamDiskBytesLazyPersisted 由 lazy writer 写入到磁盘上的数据的总大小 Bytes -
dfs.datanode.RamDiskBytesWrite 写入到内存中的数据的总大小 Bytes -
dfs.datanode.ReadBlockOpAvgTime 读操作的平均时长 ms -
dfs.datanode.ReadBlockOpNumOps 读操作数 - -
dfs.datanode.ReadsFromLocalClient local client 的读操作数 - -
dfs.datanode.ReadsFromRemoteClient remote client 的读操作数 - -
dfs.datanode.RemoteBytesRead 由 remote client 读取的数据大小 Bytes -
dfs.datanode.RemoteBytesWritten 写到 remote client 的数据大小 Bytes -
dfs.datanode.ReplaceBlockOpAvgTime block replace 操作的平均时长 ms -
dfs.datanode.ReplaceBlockOpNumOps block replace 操作数 - -
dfs.datanode.SendDataPacketBlockedOnNetworkNanosAvgTime 发送数据包的平均等待时长 ns -
dfs.datanode.SendDataPacketBlockedOnNetworkNanosNumOps 发送的数据包总数 - -
dfs.datanode.SendDataPacketTransferNanosAvgTime 发送数据包的平均传输时长 ns -
dfs.datanode.SendDataPacketTransferNanosNumOps 发送数据包的总数 - -
dfs.datanode.TotalReadTime read 操作消耗的总时长 ms -
dfs.datanode.TotalWriteTime 写操作消耗的总时长 ms -
dfs.datanode.VolumeFailures 所有 datanode 的 failure volume 总数 - -
dfs.datanode.WriteBlockOpAvgTime 写操作的平均时长 ms -
dfs.datanode.WriteBlockOpNumOps 写操作数 - -
dfs.datanode.WritesFromLocalClient local client 的写操作数 - -
dfs.datanode.WritesFromRemoteClient remote client 的写操作数 - -
HDFS_DataNode_Memory_Heap_committed DataNode 进程 commit 的堆内存大小 Bytes -
HDFS_DataNode_Memory_Heap_init DataNode 进程 init 的堆内存大小 Bytes -
HDFS_DataNode_Memory_Heap_max DataNode 进程最大的堆内存大小 Bytes -
HDFS_DataNode_Memory_Heap_used DataNode 进程使用的堆内存大小 Bytes -
HDFS_DataNode_Memory_NonHeap_committed DataNode 进程 commit 的非堆内存大小 Bytes -
HDFS_DataNode_Memory_NonHeap_init DataNode 进程 init 的非堆内存大小 Bytes -
HDFS_DataNode_Memory_NonHeap_max DataNode 进程最大的非堆内存大小 Bytes -
HDFS_DataNode_Memory_NonHeap_used DataNode 进程使用的非堆内存大小 Bytes -
HDFS_DataNode_OS_MaxFileDescriptorCount DataNode 进程可以使用的最大文件描述符 - -
HDFS_DataNode_OS_OpenFileDescriptorCount DataNode 进程打开的文件描述符个数 - -
HDFS_DataNode_OS_ProcessCpuTime DataNode 进程的 CPU 使用时间 ms -
HDFS_DataNode_OS_ProcessCpuUtilization DataNode 进程的 CPU 利用率 - -
HDFS_DataNode_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HDFS_DataNode_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HDFS_DataNode_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_DataNode_PS_Scavenge_GC_CollectionCount GC 次数 - -
HDFS_DataNode_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HDFS_DataNode_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_DataNode_Runtime_Uptime 进程执行时长 - -
HDFS_DataNode_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HDFS_DataNode_Threading_ThreadCount 进程的子进程个数 - -
NumDeadDataNode Dead 的 DataNode 个数 - -
NumLiveDataNodes Live 的 DataNode 个数 - -

HttpFS

指标名称 含义 单位 备注
HDFS_HttpFS_Memory_Heap_committed 进程 commit 的堆内存大小 Bytes -
HDFS_HttpFS_Memory_Heap_init 进程 init 的堆内存大小 Bytes -
HDFS_HttpFS_Memory_Heap_max 进程最大的堆内存大小 Bytes -
HDFS_HttpFS_Memory_Heap_used 进程使用的堆内存大小 Bytes -
HDFS_HttpFS_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Bytes -
HDFS_HttpFS_Memory_NonHeap_init 进程 init 的非堆内存大小 Bytes -
HDFS_HttpFS_Memory_NonHeap_max 进程最大的非堆内存大小 Bytes -
HDFS_HttpFS_Memory_NonHeap_used 进程使用的非堆内存大小 Bytes -
HDFS_HttpFS_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
HDFS_HttpFS_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
HDFS_HttpFS_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
HDFS_HttpFS_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
HDFS_HttpFS_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HDFS_HttpFS_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HDFS_HttpFS_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_HttpFS_PS_Scavenge_GC_CollectionCount GC 次数 - -
HDFS_HttpFS_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HDFS_HttpFS_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_HttpFS_Runtime_Uptime 进程执行时长 ms -
HDFS_HttpFS_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HDFS_HttpFS_Threading_ThreadCount 进程的子进程个数 - -

JournalNode

指标名称 含义 单位 备注
HDFS_JournalNode_Memory_Heap_committed 进程 commit 的堆内存大小 Bytes -
HDFS_JournalNode_Memory_Heap_init 进程 init 的堆内存大小 Bytes -
HDFS_JournalNode_Memory_Heap_max 进程最大的堆内存大小 Bytes -
HDFS_JournalNode_Memory_Heap_used 进程使用的堆内存大小 Bytes -
HDFS_JournalNode_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Bytes -
HDFS_JournalNode_Memory_NonHeap_init 进程 init 的非堆内存大小 Bytes -
HDFS_JournalNode_Memory_NonHeap_max 进程最大的非堆内存大小 Bytes -
HDFS_JournalNode_Memory_NonHeap_used 进程使用的非堆内存大小 Bytes -
HDFS_JournalNode_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
HDFS_JournalNode_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
HDFS_JournalNode_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
HDFS_JournalNode_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
HDFS_JournalNode_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HDFS_JournalNode_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HDFS_JournalNode_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_JournalNode_PS_Scavenge_GC_CollectionCount GC 次数 - -
HDFS_JournalNode_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HDFS_JournalNode_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_JournalNode_Runtime_Uptime 进程执行时长 ms -
HDFS_JournalNode_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HDFS_JournalNode_Threading_ThreadCount 进程的子进程个数 - -
JournalNodeHttpPortOpen JournalNode 的 Http 端口 8480 是否打开 - -
JournalNodeRpcPortOpen JournalNode 的 Rpc 端口8485 是否打开 - -

ZKFC

指标名称 含义 单位 备注
HDFS_ZKFC_Memory_Heap_committed zkfc 进程 commit 的堆内存大小 Byte -
HDFS_ZKFC_Memory_Heap_init zkfc 进程 init 的堆内存大小 Byte -
HDFS_ZKFC_Memory_Heap_max zkfc 进程最大的堆内存大小 Byte -
HDFS_ZKFC_Memory_Heap_used zkfc 进程使用的堆内存大小 Byte -
HDFS_ZKFC_Memory_NonHeap_committed zkfc 进程 commit 的非堆内存大小 Byte -
HDFS_ZKFC_Memory_NonHeap_init zkfc 进程 init 的非堆内存大小 Byte -
HDFS_ZKFC_Memory_NonHeap_max zkfc 进程最大的非堆内存大小 Byte -
HDFS_ZKFC_Memory_NonHeap_used zkfc 进程使用的非堆内存大小 Byte -
HDFS_ZKFC_OS_MaxFileDescriptorCount zkfc 进程可以使用的最大文件描述符 - -
HDFS_ZKFC_OS_OpenFileDescriptorCount zkfc 进程打开的文件描述符个数 - -
HDFS_ZKFC_OS_ProcessCpuTime zkfc 进程的 CPU 使用时间 - -
HDFS_ZKFC_OS_ProcessCpuUtilization zkfc 进程的 CPU 利用率 - -
HDFS_ZKFC_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HDFS_ZKFC_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HDFS_ZKFC_PS_Scavenge_GC_CollectionCount GC 次数 - -
HDFS_ZKFC_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HDFS_ZKFC_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HDFS_ZKFC_Runtime_Uptime 进程执行时长 - -
HDFS_ZKFC_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HDFS_ZKFC_Threading_ThreadCount 进程的子进程个数 - -
ZKFCPortOpen zkfc 的 8019 端口是否打开 - -

YARN

Queue

指标名称 含义 单位 备注
yarn.QueueMetrics.{queueName}.running_0 当前队列中运行作业运行时间小于 60 分钟的作业个数 - -
yarn.QueueMetrics.{queueName}.running_60 当前队列中运行作业运行时间介于 60~300 分钟的作业个数 - -
yarn.QueueMetrics.{queueName}.running_300 当前队列中运行作业运行时间介于 300~1440 分钟的作业个数 - -
yarn.QueueMetrics.{queueName}.running_1440 当前队列中运行作业运行时间大于 1440 分钟的作业个数 - -
yarn.QueueMetrics.{queueName}.AppsSubmitted 当前队列历史提交作业个数 - -
yarn.QueueMetrics.{queueName}.AppsRunning 当前队列正在运行的作业个数 - -
yarn.QueueMetrics.{queueName}.AppsPending 当前队列 pending 的作业个数 - -
yarn.QueueMetrics.{queueName}.AppsCompleted 当前队列完成的作业个数 - -
yarn.QueueMetrics.{queueName}.AppsKilled 当前队列 kill 掉的作业个数 - -
yarn.QueueMetrics.{queueName}.AppsFailed 当前队列失败的作业个数 - -
yarn.QueueMetrics.{queueName}.AllocatedMB 当前队列分配的内存大小 MB -
yarn.QueueMetrics.{queueName}.AllocatedVCores 当前队列分配的 VCore 个数 - -
yarn.QueueMetrics.{queueName}.AllocatedContainers 当前队列分配的 container 个数 - -
yarn.QueueMetrics.{queueName}.AggregateContainersAllocated 当前队列分配的 container 总数 - -
yarn.QueueMetrics.{queueName}.AggregateContainersReleased 当前队列 release 的 container 总数 - -
yarn.QueueMetrics.{queueName}.AvailableMB 当前队列当前可用的内存大小 MB -
yarn.QueueMetrics.{queueName}.AvailableVCores 当前队列可用的 VCore 个数 - -
yarn.QueueMetrics.{queueName}.PendingMB 当前队列的资源请求中 pending 的内存大小 - -
yarn.QueueMetrics.{queueName}.PendingVCores 当前队列的资源请求中 pending 的 VCore - -
yarn.QueueMetrics.{queueName}.PendingContainers 当前队列的资源请求中 pending 的 container 个数 - -
yarn.QueueMetrics.{queueName}.ReservedMB 当前队列中 reserved 内存大小 - -
yarn.QueueMetrics.{queueName}.ReservedVCores 当前队列中 reserved 的 VCore 个数 - -
yarn.QueueMetrics.{queueName}.ReservedContainers 当前队列中 reserved 的 container 个数 - -
yarn.QueueMetrics.{queueName}.ActiveUsers 当前队列活跃用户数 - -
yarn.QueueMetrics.{queueName}.ActiveApplications 当前队列中 active 的作业个数 - -
RPC
指标名称 含义 单位 备注
rpc.yarn.8025.CallQueueLength 8025 端口的 CallQueueLength - -
rpc.yarn.8025.NumOpenConnections 8025 端口的当前打开的连接个数 - -
rpc.yarn.8025.ReceivedBytes 8025 端口的接收到的数据量 Bytes -
rpc.yarn.8025.RpcAuthenticationFailures 8025 端口的 rpc失败个身份验证数 - -
rpc.yarn.8025.RpcAuthenticationSuccesses 8025 端口的 rpc身份验证成功个数 - -
rpc.yarn.8025.RpcAuthorizationFailures 8025 端口的身份验证失败个数 - -
rpc.yarn.8025.RpcAuthorizationSuccesses 8025 端口的身份验证成功个数 - -
rpc.yarn.8025.RpcProcessingTimeAvgTime 8025 端口的请求处理平均时间 - -
rpc.yarn.8025.RpcProcessingTimeNumOps 8025 端口的 rpc 请求的次数 - -
rpc.yarn.8025.RpcQueueTimeAvgTime 8025 端口的平均队列处理时间 - -
rpc.yarn.8025.RpcQueueTimeNumOps 8025 端口的 rpc 请求的次数 - -
rpc.yarn.8025.SentBytes 8025 端口的 rpc 发送数据 Bytes -
rpc.yarn.8030.CallQueueLength 8030 端口的 CallQueueLength - -
rpc.yarn.8030.NumOpenConnections 8030 端口的当前打开的连接个数 - -
rpc.yarn.8030.ReceivedBytes 8030 端口的接收到的数据量 Bytes -
rpc.yarn.8030.RpcAuthenticationFailures 8030 端口的 rpc身份验证失败个数 - -
rpc.yarn.8030.RpcAuthenticationSuccesses 8030 端口的 rpc身份验证成功个数 - -
rpc.yarn.8030.RpcAuthorizationFailures 8030 端口的身份验证失败个数 - -
rpc.yarn.8030.RpcAuthorizationSuccesses 8030 端口的身份验证成功个数 - -
rpc.yarn.8030.RpcProcessingTimeAvgTime 8030 端口的请求处理平均时间 - -
rpc.yarn.8030.RpcProcessingTimeNumOps 8030 端口的 rpc 请求的次数 - -
rpc.yarn.8030.RpcQueueTimeAvgTime 8030 端口的平均队列处理时间 - -
rpc.yarn.8030.RpcQueueTimeNumOps 8030 端口的 rpc 请求的次数 - -
rpc.yarn.8030.SentBytes 8030 端口的 rpc 发送数据量 Bytes -
rpc.yarn.8032.CallQueueLength 8032 端口的 CallQueueLength - -
rpc.yarn.8032.NumOpenConnections 8032 端口的当前打开的连接个数 - -
rpc.yarn.8032.ReceivedBytes 8032 端口的接收到的数据量 Bytes -
rpc.yarn.8032.RpcAuthenticationFailures 8032 端口的 rpc身份验证失败个数 - -
rpc.yarn.8032.RpcAuthenticationSuccesses 8032 端口的 rpc 身份验证成功个数 - -
rpc.yarn.8032.RpcAuthorizationFailures 8032 端口的身份验证失败个数 - -
rpc.yarn.8032.RpcAuthorizationSuccesses 8032 端口的身份验证成功个数 - -
rpc.yarn.8032.RpcProcessingTimeAvgTime 8032 端口的请求处理平均时间 - -
rpc.yarn.8032.RpcProcessingTimeNumOps 8032 端口的 rpc 请求的次数 - -
rpc.yarn.8032.RpcQueueTimeAvgTime 8032 端口的平均队列处理时间 - -
rpc.yarn.8032.RpcQueueTimeNumOps 8032 端口的 rpc 请求的次数 - -
rpc.yarn.8032.SentBytes 8032 端口的 rpc 发送数据量 Bytes -
rpc.yarn.8033.CallQueueLength 8033 端口的 CallQueueLength - -
rpc.yarn.8033.NumOpenConnections 8033 端口的当前打开的连接个数 - -
rpc.yarn.8033.ReceivedBytes 8033 端口的接收到的数据量 - -
rpc.yarn.8033.RpcAuthenticationFailures 8033 端口的 rpc身份验证失败个数 - -
rpc.yarn.8033.RpcAuthenticationSuccesses 8033 端口的 rpc身份验证成功个数 - -
rpc.yarn.8033.RpcAuthorizationFailures 8033 端口的身份验证失败个数 - -
rpc.yarn.8033.RpcAuthorizationSuccesses 8033 端口的身份验证成功个数 - -
rpc.yarn.8033.RpcProcessingTimeAvgTime 8033 端口的请求处理平均时间 - -
rpc.yarn.8033.RpcProcessingTimeNumOps 8033 端口的 rpc 请求的次数 - -
rpc.yarn.8033.RpcQueueTimeAvgTime 8033 端口的平均队列处理时间 - -
rpc.yarn.8033.RpcQueueTimeNumOps 8033 端口的 rpc 请求的次数 - -
rpc.yarn.8033.SentBytes 8033 端口的 rpc 发送数据量 Bytes -

ResourceManager

指标名称 含义 单位 备注
ResourceManagerActive ResourceManager 节点是否是 Active - -
ResourceManagerAdminPortOpen ResourceManager 的 Admin 端口 8033 是否打开 - -
ResourceManager_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
ResourceManager_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
ResourceManager_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
ResourceManager_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
ResourceManager_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
ResourceManager_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
ResourceManagerPortOpen ResourceManager 8032 端口是否打开 - -
ResourceManagerResourcetrackerPortOpen ResoureManager 8025 端口是否打开 - -
ResourceManagerSchedulerPortOpen ResourceManager 8030 端口是否打开 - -
ResourceManagerWebappPortOpen ResourceManager 8088 端口是否打开 - -
YARN_ResourceManager_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
YARN_ResourceManager_Memory_Heap_init 进程 init 的堆内存大小 Byte -
YARN_ResourceManager_Memory_Heap_max 进程最大的堆内存大小 Byte -
YARN_ResourceManager_Memory_Heap_used 进程使用的堆内存大小 Byte -
YARN_ResourceManager_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
YARN_ResourceManager_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
YARN_ResourceManager_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
YARN_ResourceManager_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
YARN_ResourceManager_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
YARN_ResourceManager_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
YARN_ResourceManager_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
YARN_ResourceManager_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
YARN_ResourceManager_PS_MarkSweep_GC_CollectionCount GC 次数 - -
YARN_ResourceManager_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
YARN_ResourceManager_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
YARN_ResourceManager_PS_Scavenge_GC_CollectionCount GC 次数 - -
YARN_ResourceManager_PS_Scavenge_GC_CollectionTime GC 总时间 - -
YARN_ResourceManager_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
YARN_ResourceManager_Runtime_Uptime 进程执行时长 - -
YARN_ResourceManager_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
YARN_ResourceManager_Threading_ThreadCount 进程的子进程个数 - -

NodeManager

指标名称 含义 单位 备注
NodeManagerHttpPortOpen NodeManager 的 http端口 8042 是否打开 - -
rpcdetailed.rpcdetailed.RegisterNodeManagerAvgTime NodeManager 注册平均时长 ms -
rpcdetailed.rpcdetailed.RegisterNodeManagerNumOps NodeManager 注册数 - -
YARN_NodeManager_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
YARN_NodeManager_Memory_Heap_init 进程 init 的堆内存大小 Byte -
YARN_NodeManager_Memory_Heap_max 进程最大的堆内存大小 Byte -
YARN_NodeManager_Memory_Heap_used 进程使用的堆内存大小 Byte -
YARN_NodeManager_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
YARN_NodeManager_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
YARN_NodeManager_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
YARN_NodeManager_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
yarn.NodeManagerMetrics.AllocatedContainers NodeManager 分配的 container 数量 - -
yarn.NodeManagerMetrics.AllocatedGB NodeManager 分配的内存大小 GB -
yarn.NodeManagerMetrics.AllocatedVCores NodeManager 分配的 VCore - -
yarn.NodeManagerMetrics.AvailableGB NodeManager 可用的内存大小 GB -
yarn.NodeManagerMetrics.AvailableVCores NodeManager 可用的 VCore 个数 - -
yarn.NodeManagerMetrics.ContainerLaunchDurationAvgTime container launch 平均时长 - -
yarn.NodeManagerMetrics.ContainerLaunchDurationNumOps container launch 的操作数 - -
yarn.NodeManagerMetrics.ContainersCompleted 运行完成的 container 个数 - -
yarn.NodeManagerMetrics.ContainersFailed 失败的 container 个数 - -
yarn.NodeManagerMetrics.ContainersIniting 初始化中的 container 个数 - -
yarn.NodeManagerMetrics.ContainersKilled 被 kill 的 container 个数 - -
yarn.NodeManagerMetrics.ContainersLaunched launch 的 container 个数 - -
yarn.NodeManagerMetrics.ContainersRunning 正在运行的 container 个数 - -
YARN_NodeManager_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
YARN_NodeManager_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
YARN_NodeManager_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
YARN_NodeManager_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
YARN_NodeManager_PS_MarkSweep_GC_CollectionCount GC 次数 - -
YARN_NodeManager_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
YARN_NodeManager_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
YARN_NodeManager_PS_Scavenge_GC_CollectionCount GC 次数 - -
YARN_NodeManager_PS_Scavenge_GC_CollectionTime GC 总时间 - -
YARN_NodeManager_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
YARN_NodeManager_Runtime_Uptime 进程执行时长 - -
YARN_NodeManager_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
YARN_NodeManager_Threading_ThreadCount 进程的子进程个数 - -

JobHistory

指标名称 含义 单位 备注
JobHistory_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
JobHistory_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
JobHistory_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
JobHistory_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
JobHistory_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
JobHistory_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
JobHistoryPortOpen JobHistory 的端口 10020 是否打开 - -
JobHistoryWebappPortOpen Jobhistory 的端口 19888 是否打开 - -
YARN_JobHistory_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
YARN_JobHistory_Memory_Heap_init 进程 init 的堆内存大小 Byte -
YARN_JobHistory_Memory_Heap_max 进程最大的堆内存大小 Byte -
YARN_JobHistory_Memory_Heap_used 进程使用的堆内存大小 Byte -
YARN_JobHistory_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
YARN_JobHistory_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
YARN_JobHistory_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
YARN_JobHistory_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
YARN_JobHistory_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
YARN_JobHistory_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
YARN_JobHistory_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
YARN_JobHistory_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
YARN_JobHistory_PS_MarkSweep_GC_CollectionCount GC 次数 - -
YARN_JobHistory_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
YARN_JobHistory_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
YARN_JobHistory_PS_Scavenge_GC_CollectionCount GC 次数 - -
YARN_JobHistory_PS_Scavenge_GC_CollectionTime GC 总时间 - -
YARN_JobHistory_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
YARN_JobHistory_Runtime_Uptime 进程运行时长 - -
YARN_JobHistory_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
YARN_JobHistory_Threading_ThreadCount 进程的子进程个数 - -

TimeLineServer

指标名称 含义 单位 备注
YARN_TimeLineServer_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
YARN_TimeLineServer_Memory_Heap_init 进程 init 的堆内存大小 Byte -
YARN_TimeLineServer_Memory_Heap_max 进程最大的堆内存大小 Byte -
YARN_TimeLineServer_Memory_Heap_used 进程使用的堆内存大小 Byte -
YARN_TimeLineServer_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
YARN_TimeLineServer_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
YARN_TimeLineServer_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
YARN_TimeLineServer_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
YARN_TimeLineServer_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
YARN_TimeLineServer_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
YARN_TimeLineServer_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
YARN_TimeLineServer_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
YARN_TimeLineServer_PS_MarkSweep_GC_CollectionCount GC 次数 - -
YARN_TimeLineServer_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
YARN_TimeLineServer_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
YARN_TimeLineServer_PS_Scavenge_GC_CollectionCount GC 次数 - -
YARN_TimeLineServer_PS_Scavenge_GC_CollectionTime GC 总时间 - -
YARN_TimeLineServer_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
YARN_TimeLineServer_Runtime_Uptime 进程执行时长 - -
YARN_TimeLineServer_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
YARN_TimeLineServer_Threading_ThreadCount 进程的子进程个数 - -

WebAppProxyServer

指标名称 含义 单位 备注
YARN_WebAppProxyServer_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_Heap_init 进程 init 的堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_Heap_max 进程最大的堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_Heap_used 进程使用的堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
YARN_WebAppProxyServer_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
YARN_WebAppProxyServer_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
YARN_WebAppProxyServer_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
YARN_WebAppProxyServer_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
YARN_WebAppProxyServer_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
YARN_WebAppProxyServer_PS_MarkSweep_GC_CollectionCount GC 次数 - -
YARN_WebAppProxyServer_PS_MarkSweep_GC_CollectionTime GC 总时间 ms -
YARN_WebAppProxyServer_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 ms -
YARN_WebAppProxyServer_PS_Scavenge_GC_CollectionCount GC 次数 - -
YARN_WebAppProxyServer_PS_Scavenge_GC_CollectionTime GC 总时间 - -
YARN_WebAppProxyServer_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
YARN_WebAppProxyServer_Runtime_Uptime 进程执行时长 - -
YARN_WebAppProxyServer_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
YARN_WebAppProxyServer_Threading_ThreadCount 进程的子进程个数 - -

HIVE

HiveServer2

指标名称 含义 单位 备注
HIVE_HiveServer2_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
HIVE_HiveServer2_Memory_Heap_init 进程 init 的堆内存大小 Byte -
HIVE_HiveServer2_Memory_Heap_max 进程最大的堆内存大小 Byte -
HIVE_HiveServer2_Memory_Heap_used 进程使用的堆内存大小 Byte -
HIVE_HiveServer2_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
HIVE_HiveServer2_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
HIVE_HiveServer2_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
HIVE_HiveServer2_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
HIVE_HiveServer2_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
HIVE_HiveServer2_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
HIVE_HiveServer2_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
HIVE_HiveServer2_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
HIVE_HiveServer2_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HIVE_HiveServer2_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HIVE_HiveServer2_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
HIVE_HiveServer2_PS_Scavenge_GC_CollectionCount GC 次数 - -
HIVE_HiveServer2_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HIVE_HiveServer2_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HIVE_HiveServer2_Runtime_Uptime 进程执行时长 - -
HIVE_HiveServer2_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HIVE_HiveServer2_Threading_ThreadCount 进程的子进程个数 - -
hiveserver2.gc.PS-MarkSweep.count - - -
hiveserver2.gc.PS-MarkSweep.time - - -
hiveserver2.gc.PS-Scavenge.count - - -
hiveserver2.gc.PS-Scavenge.time - - -
HiveServer2_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
HiveServer2_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
HiveServer2_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
HiveServer2_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
HiveServer2_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
HiveServer2_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
hiveserver2.memory.heap.committed - - -
hiveserver2.memory.heap.init - - -
hiveserver2.memory.heap.max - - -
hiveserver2.memory.heap.usage - - -
hiveserver2.memory.heap.used - - -
hiveserver2.memory.non-heap.committed - - -
hiveserver2.memory.non-heap.init - - -
hiveserver2.memory.non-heap.max - - -
hiveserver2.memory.non-heap.usage - - -
hiveserver2.memory.non-heap.used - - -
hiveserver2.memory.pools.Code-Cache.usage - - -
hiveserver2.memory.pools.Compressed-Class-Space.usage - - -
hiveserver2.memory.pools.Metaspace.usage - - -
hiveserver2.memory.pools.PS-Eden-Space.usage - - -
hiveserver2.memory.pools.PS-Old-Gen.usage - - -
hiveserver2.memory.pools.PS-Survivor-Space.usage - - -
hiveserver2.memory.total.committed - - -
hiveserver2.memory.total.init - - -
hiveserver2.memory.total.max - - -
hiveserver2.memory.total.used - - -
HiveServer2PortOpen - - -
hiveserver2.threads.blocked.count - - -
hiveserver2.threads.count - - -
hiveserver2.threads.daemon.count - - -
hiveserver2.threads.deadlock.count - - -
hiveserver2.threads.new.count - - -
hiveserver2.threads.runnable.count - - -
hiveserver2.threads.terminated.count - - -
hiveserver2.threads.timed_waiting.count - - -
hiveserver2.threads.waiting.count - - -
HiveServer2WebuiPortOpen - - -

MetaStore

指标名称 含义 单位 备注
HIVE_HiveMetaStore_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_Heap_init 进程 init 的堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_Heap_max 进程最大的堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_Heap_used 进程使用的堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
HIVE_HiveMetaStore_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
HIVE_HiveMetaStore_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
HIVE_HiveMetaStore_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
HIVE_HiveMetaStore_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
HIVE_HiveMetaStore_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
HIVE_HiveMetaStore_PS_MarkSweep_GC_CollectionCount GC 次数 - -
HIVE_HiveMetaStore_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
HIVE_HiveMetaStore_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
HIVE_HiveMetaStore_PS_Scavenge_GC_CollectionCount GC 次数 - -
HIVE_HiveMetaStore_PS_Scavenge_GC_CollectionTime GC 总时间 - -
HIVE_HiveMetaStore_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
HIVE_HiveMetaStore_Runtime_Uptime 进程执行时长 - -
HIVE_HiveMetaStore_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
HIVE_HiveMetaStore_Threading_ThreadCount 进程的子进程个数 - -
hivemetastore.gc.PS-MarkSweep.count - - -
hivemetastore.gc.PS-MarkSweep.time - - -
hivemetastore.gc.PS-Scavenge.count - - -
hivemetastore.gc.PS-Scavenge.time - - -
hivemetastore.memory.heap.committed - - -
hivemetastore.memory.heap.init - - -
hivemetastore.memory.heap.max - - -
hivemetastore.memory.heap.usage - - -
hivemetastore.memory.heap.used - - -
hivemetastore.memory.non-heap.committed - - -
hivemetastore.memory.non-heap.init - - -
hivemetastore.memory.non-heap.max - - -
hivemetastore.memory.non-heap.usage - - -
hivemetastore.memory.non-heap.used - - -
hivemetastore.memory.pools.Code-Cache.usage - - -
hivemetastore.memory.pools.Compressed-Class-Space.usage - - -
hivemetastore.memory.pools.Metaspace.usage - - -
hivemetastore.memory.pools.PS-Eden-Space.usage - - -
hivemetastore.memory.pools.PS-Old-Gen.usage - - -
hivemetastore.memory.pools.PS-Survivor-Space.usage - - -
hivemetastore.memory.total.committed - - -
hivemetastore.memory.total.init - - -
hivemetastore.memory.total.max - - -
hivemetastore.memory.total.used - - -
hivemetastore.threads.blocked.count - - -
hivemetastore.threads.count - - -
hivemetastore.threads.daemon.count - - -
hivemetastore.threads.deadlock.count - - -
hivemetastore.threads.new.count - - -
hivemetastore.threads.runnable.count - - -
hivemetastore.threads.terminated.count - - -
hivemetastore.threads.timed_waiting.count - - -
hivemetastore.threads.waiting.count - - -
Metastore_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
Metastore_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
Metastore_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
Metastore_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
Metastore_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
Metastore_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
MetastorePortOpen Metastore 的端口 9083 是否打开 - -

SPARK

SparkHistory

指标名称 含义 单位 备注
SparkHistory_GCutil_CCS 压缩使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_E 伊甸园区使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_FGC 老年代垃圾回收次数 - 输出参考 jstat -gcutil
SparkHistory_GCutil_FGCT 老年代垃圾回收消耗时间 s 输出参考 jstat -gcutil
SparkHistory_GCutil_GCT 垃圾回收消耗总时间 s 输出参考 jstat -gcutil
SparkHistory_GCutil_M 元数据区使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_O 老年代使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_S0 幸存1区当前使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_S1 幸存2区当前使用比例 - 输出参考 jstat -gcutil
SparkHistory_GCutil_YGC 年轻代垃圾回收次数 - 输出参考 jstat -gcutil
SparkHistory_GCutil_YGCT 年轻代垃圾回收消耗时间 s 输出参考 jstat -gcutil
SparkHistoryServerUiPortOpen Spark HistoryServer 端口 18080 是否打开 - -
SPARK_SparkHistory_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
SPARK_SparkHistory_Memory_Heap_init 进程 init 的堆内存大小 Byte -
SPARK_SparkHistory_Memory_Heap_max 进程最大的堆内存大小 Byte -
SPARK_SparkHistory_Memory_Heap_used 进程使用的堆内存大小 Byte -
SPARK_SparkHistory_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
SPARK_SparkHistory_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
SPARK_SparkHistory_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
SPARK_SparkHistory_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
SPARK_SparkHistory_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
SPARK_SparkHistory_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
SPARK_SparkHistory_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
SPARK_SparkHistory_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
SPARK_SparkHistory_PS_MarkSweep_GC_CollectionCount GC 次数 - -
SPARK_SparkHistory_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
SPARK_SparkHistory_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
SPARK_SparkHistory_PS_Scavenge_GC_CollectionCount GC 次数 - -
SPARK_SparkHistory_PS_Scavenge_GC_CollectionTime GC 总时间 - -
SPARK_SparkHistory_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
SPARK_SparkHistory_Runtime_Uptime 进程执行时长 - -
SPARK_SparkHistory_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
SPARK_SparkHistory_Threading_ThreadCount 进程的子进程个数 - -

ZOOKEEPER

ZOOKEEPER

指标名称 含义 单位 备注
zk_avg_latency zk 处理平均延迟 ms -
ZKClientPortOpen zk client 端口 2181 是否打开 - -
ZKIsLeader 当前 zk 节点是否是 leader - -
ZKLeaderPortOpen zk leader 端口 3888 是否打开 - -
zk_max_file_descriptor_count zk 最大文件描述符个数 - -
zk_max_latency zk 处理最大时延 - -
zk_min_latency zk 处理最小时延 - -
zk_num_alive_connections zk 活跃连接数 - -
zk_open_file_descriptor_count zk 打开的文件描述符个数 - -
zk_outstanding_requests 排队请求的数量 - -
zk_packets_received zk 接收的数据包 - -
zk_packets_sent zk 发送的数据包 - -
ZKPeerPortOpen zk 的 peer 端口 2888 是否打开 - -
zk_watch_count zk 的 watch 数目 - -
zk_znode_count zk 的 znode 数量 - -
ZOOKEEPER_ZOOKEEPER_Memory_Heap_committed 进程 commit 的堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_Heap_init 进程 init 的堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_Heap_max 进程最大的堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_Heap_used 进程使用的堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_committed 进程 commit 的非堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_init 进程 init 的非堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_max 进程最大的非堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_Memory_NonHeap_used 进程使用的非堆内存大小 Byte -
ZOOKEEPER_ZOOKEEPER_OS_MaxFileDescriptorCount 进程可以使用的最大文件描述符 - -
ZOOKEEPER_ZOOKEEPER_OS_OpenFileDescriptorCount 进程打开的文件描述符个数 - -
ZOOKEEPER_ZOOKEEPER_OS_ProcessCpuTime 进程的 CPU 使用时间 - -
ZOOKEEPER_ZOOKEEPER_OS_ProcessCpuUtilization 进程的 CPU 利用率 - -
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_CollectionCount GC 次数 - -
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_CollectionTime GC 总时间 - -
ZOOKEEPER_ZOOKEEPER_PS_MarkSweep_GC_last_duration 上一次 GC 消耗时长 - -
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_CollectionCount GC 次数 - -
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_CollectionTime GC 总时间 - -
ZOOKEEPER_ZOOKEEPER_PS_Scavenge_GC_last_duration 上一次 GC 消耗时长 - -
ZOOKEEPER_ZOOKEEPER_Runtime_Uptime 进程执行时长 - -
ZOOKEEPER_ZOOKEEPER_Threading_DaemonThreadCount 进程的 Daemon 进程个数 - -
ZOOKEEPER_ZOOKEEPER_Threading_ThreadCount 进程的子进程个数 - -