云监控(CloudMonitor)是阿里云的一种监控告警服务,当您需要监控E-MapReduce资源的使用和运行情况时,可以通过创建阈值报警规则,实现监控项超过设定阈值后自动发送报警通知的功能,帮助您及时了解监控数据异常并快速进行处理。

前提条件

已在E-MapReduce上创建集群。

操作步骤

  1. 登录云监控控制台
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 报警规则页面,单击创建报警规则
  4. 创建报警规则页面,设置报警规则相关信息,具体操作请参见创建报警规则
    参数 说明
    产品 产品列表中选择E-MapReduce
    资源范围 报警规则的作用范围。取值:
    • 全部资源:表示该规则作用在用户名下E-MapReduce的全部集群上。
    • 应用分组:表示该规则作用在用户名下E-MapReduce的指定应用分组内的全部集群上。
    • 实例:表示该规则只作用在指定的集群上。
    规则描述 报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:CPU使用率5分钟平均值>=90%,持续3个周期,则报警服务5分钟检查一次数据是否满足平均值>=90%,只检测3次。
    说明 规则详细信息,请参见报警规则
    规则描述的设置方法如下:
    1. 单击添加规则
    2. 添加规则描述面板,设置规则名称、监控指标类型、监控指标、阈值、报警级别和报警方式等。
    3. 单击确定
    通道沉默周期 报警发生后未恢复正常,间隔多久重复发送一次报警通知。
    说明 单击高级设置,可设置该参数。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    说明 单击高级设置,可设置该参数。
    报警联系人组 发送报警的联系人组。

    如果您需要新建联系人组,创建详情请参见创建报警联系人或报警联系组

    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
    弹性伸缩 如果您选中弹性伸缩,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则
    日志服务 如果您选中日志服务,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectLogstore

    创建Project和Logstore的操作方法,请参见快速入门

    消息服务MNS-Topic 如果您打开消息服务MNS-Topic开关,当报警发生时,会将报警信息写入消息服务的主题。您需要设置消息服务的地域和主题。

    关于如何创建主题,请参见创建主题

  5. 单击确定

报警规则

服务名 指标名 指标含义
HDFS NameNodeIpcPortOpen NameNode的IPC端口的可用性:
  • 1:可用
  • 0:不可用
TotalDFSUsedPercent 集群的HDFS总容量使用百分比。
DataNodeDfsUsedPercent DataNode节点的DFS使用率。
DataNodeIpcPortOpen DataNode中IPC端口的可用性:
  • 1:可用
  • 0:不可用
JournalNodeRpcPortOpen JournalNode的RPC端口的可用性:
  • 1:可用
  • 0:不可用
ZKFCPortOpen ZKFC端口的可用性:
  • 1:可用
  • 0:不可用
dfs.FSNamesystem.MissingBlocks 丢失的块数。
dfs.datanode.VolumeFailures HDFS检测出的坏盘数。
YARN ResourceManagerPortOpen ResourceManager的服务端口的可用性:
  • 1:可用
  • 0:不可用
JobHistoryPortOpen JobHistory的服务端口的可用性:
  • 1:可用
  • 0:不可用
yarn.ClusterMetrics.NumUnhealthyNM Unhealthy的NodeManager个数。
ProxyServerPortOpen WebAppProxy端口的可用性:
  • 1:可用
  • 0:不可用
TimelineServerPortOpen TimelineServer的服务端口的可用性:
  • 1:可用
  • 0:不可用
Hive MetastorePortOpen HiveMetaStore端口的可用性:
  • 1:可用
  • 0:不可用
HiveServer2PortOpen HiveServer2的服务端口的可用性:
  • 1:可用
  • 0:不可用
ThriftServerPortOpen ThriftServer的服务端口的可用性:
  • 1:可用
  • 0:不可用
HBase HMasterIpcPortOpen HMaster的IPC端口可用性:
  • 1:可用
  • 0:不可用
HRegionServerIpcPortOpen HRegionServer的IPC的端口可用性:
  • 1:可用
  • 0:不可用
ZooKeeper ZKClientPortOpen ZooKeeper客户端监听端口的可用性:
  • 1:可用
  • 0:不可用
Hue HuePortOpen Hue端口的可用性:
  • 1:可用
  • 0:不可用
Storm StormNimbusThriftPortOpen StormNimbus的Thrift端口的可用性:
  • 1:可用
  • 0:不可用
HOST proc_total 总进程数目。
part_max_used 磁盘分区使用的最大百分比。
disk_free_percent_mnt_disk1 剩余空间百分比。
disk_free_percent_rootfs 根文件系统磁盘空间占比。