云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于获取阿里云资源的监控指标、探测互联网服务可用性、以及针对指标设置警报。本文介绍利用云监控服务对于E-MapReduce集群的一些核心组件服务状态进行监控,并可以通过电话、短信、邮件以及钉钉机器人进行报警。

查看监控数据

  1. 登录云监控控制台
  2. 单击左侧导航栏中云服务监控 > E-MapReduce
  3. E-MapReduce监控列表页面,单击集群ID操作中的监控图表
  4. 单击页面上方的时间范围快速选择或自定义时间范围,查看各项监控指标。
    监控数据最长支持查看连续7天的监控数据。

    单击监控图表上的large,可查看监控大图。

报警服务

通过以下步骤,您可以新建报警规则。

  1. 登录云监控控制台
  2. 单击左侧导航栏中云服务监控 > E-MapReduce
  3. E-MapReduce监控列表页面,单击待设置集群所在行的报警规则
  4. 单击右上角的创建报警规则这里新建报警规则。
    1. 关联资源区域,选择资源范围
      资源范围选择全部资源,则帐号中所有集群满足报警规则描述时,都会发送报警通知。如果选择集群,则只在选中的集群实例满足报警规则描述时,才会发送报警通知。如需创建分组维度规则,可以通过应用分组建立规则,详情请参见应用分组
    2. 设置报警规则区域,设置报警规则。

      根据参数设置报警规则,核心组件可以参见核心组件监控指标项,更详细的信息请参见报警规则参数说明

      例如,DataNode的HTTP端口不通,并且持续了5分钟,那么可以按如下的方式设置一条告警规则,选择指标DataNodeHttpPortOpen

      role
      说明 勾选任意role,表示集群内所有节点都在当前报警规则中,新扩出的节点也会自动加入该规则。
    3. 通知方式区域,设置通知对象报警级别
      告警针对的是联系人组,如果没有设置,可以单击快速创建联系人组进行新建。

      告警可以通过电话、短信、邮件、钉钉机器人多种方式组合来进行告警,其中电话报警需要先购买电话报警资源包。

    4. 单击确认

核心组件监控指标项

服务 指标 描述
HDFS NameNodeHttpPortOpen NameNode的http端口(50070)是否正常。
DataNodeHttpPortOpen DataNode的http端口(50075)是否正常。
DataNodeIpcPortOpen DataNode的Ipc端口(50020)是否正常。
TotalDFSUsedPercent DFS总的空间使用百分比。
MaxDFSUsedPercent 所有DataNode的DFS最大使用百分比。
DataNodeDfsUsedPercent 单个DataNode的DFS使用百分比。
NumDeadDataNode DeadDataNode的个数。
说明 这个指标是通过NameNode的jmx获取的,有可能存在一种暂停的情况,就是DataNode和standby的NameNode的心跳进程停止了。
YARN ResourceManagerWebappPortOpen ResourceManager的web端口(8088)是否正常。
NodeManagerHttpPortOpen NodeManager的http端口 (8042) 是否正常。
NumUnhealthyNMs 不健康的NodeManager个数。
HIVE HiveServer2PortOpen HiveServer的端口(10000)是否正常。
MetastorePortOpen Hive MetaStore端口(9083)是否正常。
ZooKeeper ZKClientPortOpen ZooKeeper的Client 端口(2181) 是否正常。
ZkOutstandingRequests 排队请求的数量,当ZooKeeper超过了其处理能力时,这个值会增大。
HBase HMasterHttpPortOpen HMaster的Http端口(16010)是否正常。
HMasterIpcPortOpen HMaster的Ipc端口(16000)是否正常。
HRegionServerHttpPortOpen HRegionServer的HTTP端口(16030)是否正常。
HRegionServerIpcPortOpen HRegionServer的IPC端口(16020)是否正常。
说明 所有端口指标取值1表示通,0表示不通。