集群监控提供了对各个集群上的服务、组件以及主机的详细监控和可视化功能。
集群监控入口
- 登录阿里云E-MapReduce控制台。
- 在顶部菜单栏处,根据实际情况选择地域(Region)和资源组。
- 单击上方的监控大盘页签。
- 在左侧导航栏,单击集群监控。
查看集群状态列表
集群状态列表页面,展示了该集群的概览情况。

集群概览
- 展示集群基础的四个统计图,包括今日告警数量、今日作业情况、YARN计算资源使用量和HDFS存储使用量。
- 告警与详情:展示该集群下最新的严重异常事件列表。
- 服务状态:展示该集群下的服务及状态。
主机监控
- 主机监控页面,展示了该集群所有主机相关指标的概览图表。图表支持放大和自定义时间区间和粒度。
- 今日告警数量
统计该集群上主机相关告警的数量(主机相关告警是指与集群上服务没有任何关系的告警,即CPU、内存、网络、磁盘、负载以及其它跟主机相关的异常和错误)。
- CPU使用量
该集群所有主机当日CPU使用率情况统计,默认是一个小时一个数据点。
- 内存使用率
该集群所有主机当日内存使用情况统计,默认是一个小时一个数据点。
- 磁盘容量使用率
该集群所有主机当日磁盘容量使用情况统计,默认是一个小时一个数据点。
- 五分钟负载
该集群所有主机当日的5分钟负载的统计数据,默认是5分钟一个数据点。
- 网络流量
该集群所有主机当日的网络流量数据统计(所有主机流量平均),默认是1分钟一个数据点,展示最近2小时数据。
- 今日告警数量
- 告警与详情
展示主机相关的告警列表。
- 主机状态
展示该集群下所有的主机列表,以及主机当前时刻的性能指标快照数据,包括CPU、内存、负载(默认展示5分钟负载)和网络流量情况。
单个主机监控详情页面

- 指标统计概览图
请参见主机监控。
- 告警与详情
请参见主机监控。
- 基本信息
展示了主机的一些基础信息,包括主机名、内网IP、ECS状态、规格、硬件配置、到期时间和磁盘信息。
- 主机快照信息主机快照信息是根据一定时间间隔对主机核心指标信息做快照保存展示的功能,包括如下信息。
参数 含义 Uptime 查看主机启动时间,对应命令为 uptime
。Last Logged in Users 查看最后登录用户列表信息,对应命令为 last -w -n 25
。Top CPU Processes 查看主机上最占用CPU的进程列表,对应命令为 top -b -w 20480 -c -o %CPU -n 1 | head -20
。Top Memory Processes 查看主机上最占用内存的进程列表,对应命令为 top -b -w 20480 -c -o %MEM -n 1 | head -20
。Memory Usage 查看主机当前内存使用情况,对应命令为 free -m
。Disk Space Usage 查看主机当前磁盘容量使用情况,对应命令为 df -h
。Network Statistics 查看主机网络统计信息,对应命令为 netstat -s -e
。Dmesg 查看主机最近的dmesg输出信息,对应命令为 dmesg -dT | tail -n 25
。Iostat 查看主机I/O统计数据,对应命令为 iostat -x 1 5
。Vmstat 查看主机vmstat输出,对应命令为 vmstat 1 5
。Network Connections 查看主机当前网络链接信息,对应命令为 netstat -ap
。Process List 查看当前主机的进程列表信息(全量),对应命令为 ps auxwwwf
。/etc/hosts 查看当前主机的/etc/hosts文件配置信息,对应命令为 cat /etc/hosts
。其中Network Connections、Process List和/etc/hosts这三类快照信息,是每1小时做一次快照保存,其它数据为每5分钟做一次快照保存。
主机快照功能同时支持回放功能,即可以选择历史的一个时间点看当时的快照信息,在排查主机问题的时候可以恢复部分现场数据。
主机快照的典型使用场景:- 排查OOM killer到底终止掉的是什么进程
APM的日志分析检测功能分析了/var/log/message日志,发现有Java进程被OOM killer终止,并且在APM事件列表里面和钉钉告警里面进程会收到编码为 **EMR-350100001** 的告警信息。
但是日志里面记录的都是进程的简单命令java PID 887,没有记录完整参数,不知道具体是什么进程被终止,这个时候可以通过对应主机快照找到问题发生时间点的进程列表,进程列表信息会记录进程的详细信息,可以快速定位到是什么进程被终止。, - 排查主机CPU持续飙高的问题
经常有客户因为自己安全设置的问题导致主机中了挖矿病毒,主机CPU会持续飙高,这时可以直接快速找到持续占用CPU的进程。
- 排查主机内存持续飙高的问题
如果主机内存使用率持续飙高,可以通过主机快照的Top Memory Processes查看对应时间点占用内存较高的进程列表。
- 查看端口占用情况
Network Connections可以看到主机上端口占用的情况。
- 查看磁盘损坏和其它内核问题
查看主机最近的Dmesg信息可以快速发现主机磁盘损坏和其它内核问题。
- 查看主机磁盘使用率
当收到主机磁盘告警情况通过Disk Space Usage可以查看主机当前磁盘容量使用的情况。
- 排查OOM killer到底终止掉的是什么进程
- 主机基础指标数据
- CPU
- cpu_system: cpu_system
- cpu_user: cpu_user
- cpu_idle: cpu_idle
- cpu_wio: cpu_wio
- MEM
- mem_free: memory free
- mem_used_percent: memory used percent
- mem_total: memory total
- Traffic
- pkts_in: packets in
- pkts_out: packets out
- bytes_in: bytes in
- bytes_out: bytes out
- Disk
- disk_total: disk total
- disk_free: disk free
- disk_free_percent_rootfs: disk percent for rootfs
- Other
- proc_run: number of running processes
- proc_total: number of total processes
主机基础指标数据的图表均支持放大、自定义时间范围和粒度。 - CPU
在文档使用中是否遇到以下问题
更多建议
匿名提交