云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于获取阿里云资源的监控指标、探测互联网服务可用性、以及针对指标设置警报。本文介绍利用云监控服务对于E-MapReduce集群的一些核心组件服务状态进行监控,并通过电话、短信、邮件以及钉钉机器人进行报警。
查看监控数据
新建报警规则
- 登录云监控控制台。
- 单击左侧导航栏中云产品监控。
- 在云产品监控页面,选择E-MapReduce。
- 在E-MapReduce监控列表页面,单击右上角的创建报警规则。
核心组件监控指标项
服务 | 指标 | 描述 |
---|---|---|
HDFS | NameNodeHttpPortOpen | NameNode的HTTP端口(50070)是否正常。 |
DataNodeHttpPortOpen | DataNode的HTTP端口(50075)是否正常。 | |
DataNodeIpcPortOpen | DataNode的IPC端口(50020)是否正常。 | |
TotalDFSUsedPercent | DFS总的空间使用百分比。 | |
MaxDFSUsedPercent | 所有DataNode的DFS最大使用百分比。 | |
DataNodeDfsUsedPercent | 单个DataNode的DFS使用百分比。 | |
NumDeadDataNode | DeadDataNode的个数。
说明 这个指标是通过NameNode的jmx获取的,有可能存在一种暂停的情况,就是DataNode和standby的NameNode的心跳进程停止了。
|
|
YARN | ResourceManagerWebappPortOpen | ResourceManager的Web端口(8088)是否正常。 |
NodeManagerHttpPortOpen | NodeManager的HTTP端口 (8042) 是否正常。 | |
NumUnhealthyNMs | 不健康的NodeManager个数。 | |
HIVE | HiveServer2PortOpen | HiveServer的端口(10000)是否正常。 |
MetastorePortOpen | Hive MetaStore端口(9083)是否正常。 | |
ZooKeeper | ZKClientPortOpen | ZooKeeper的Client端口(2181) 是否正常。 |
ZkOutstandingRequests | 排队请求的数量,当ZooKeeper超过了其处理能力时,这个值会增大。 | |
HBase | HMasterHttpPortOpen | HMaster的HTTP端口(16010)是否正常。 |
HMasterIpcPortOpen | HMaster的IPC端口(16000)是否正常。 | |
HRegionServerHttpPortOpen | HRegionServer的HTTP端口(16030)是否正常。 | |
HRegionServerIpcPortOpen | HRegionServer的IPC端口(16020)是否正常。 |
说明 所有端口指标取值1表示通,0表示不通。
在文档使用中是否遇到以下问题
更多建议
匿名提交