当您需要监控各服务资源的使用情况时,可以创建报警规则。如果资源的监控指标达到报警条件,云监控自动发送报警通知,帮助您及时得知集群的异常情况,并快速处理。本文为您介绍如何在EMR控制台创建和查看报警规则。
背景信息
报警功能由云监控服务提供。如果您需要管理报警规则或获取更多监控和报警功能,可以在云监控控制台完成。更多信息,请参见什么是云监控。
前提条件
已创建集群,详情请参见创建集群。
使用限制
如果您使用的是RAM用户,则需要在RAM用户权限中添加以下内容。添加RAM用户权限的详细操作,请参见为RAM用户授权。
{
"Version": "1",
"Statement": [
{
"Action": [
"cms:DescribeContactGroupList",
"cms:DescribeMetricMetaList",
"cms:PutResourceMetricRules",
"cms:DescribeMetricRuleList"
],
"Resource": "*",
"Effect": "Allow"
}
]
}
创建报警规则
通过模板创建报警规则
-
进入报警管理页面。
-
在顶部菜单栏处,根据实际情况选择地域和资源组。
-
在EMR on ECS页面,单击目标集群的集群ID。
-
单击上方的监控诊断页签。
-
单击报警管理。
-
在报警管理页面,单击创建报警规则。
-
在创建报警规则面板,单击目标服务操作列的创建报警规则。
-
编辑相关规则,单击创建。
参数
说明
规则描述
当前模板下报警规则信息。您可以查看指标名称,并可以修改默认阈值。
服务范围及阈值说明,请参见模板服务范围。
通道沉默周期
如果报警发生后未恢复正常,间隔多久再次发送一次报警通知。
生效时间
表示报警规则的有效时段,报警规则只在有效时段内才会检查监控数据是否需要报警。
报警联系人组
选择相应的报警联系人组,从而实现通过报警联系组接收报警通知的目的。
报警通知方式
选择报警通知方式和报警邮件主题。报警通知方式可选:
-
电话+短信+邮件+钉钉机器人
-
短信+邮件+钉钉机器人
-
邮件+钉钉机器人
报警邮件主题(非必填):填写后,发送报警的邮件通知中会附带您的备注信息。
报警回调地址
填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
创建完成后,报警规则对当前实例生效。您可以在报警管理下查看已创建的报警规则。
单击报警管理页面的管理报警规则,可以跳转到云监控控制台查看或修改报警规则。
-
自定义创建报警规则
-
进入报警管理页面。
-
在顶部菜单栏处,根据实际情况选择地域和资源组。
-
在EMR on ECS页面,单击目标集群的集群ID。
-
单击上方的监控诊断页签。
-
单击报警管理。
-
在报警管理页面,单击创建报警规则。
-
在创建报警规则面板,单击自定义创建页签。
-
编辑相关规则,单击创建。
参数
说明
报警规则
设置报警规则,包括报警规则名称和报警规则主体。
报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。
说明-
报警规则中EMR监控指标的说明信息,请参见云监控指标查询。
-
通过单击添加报警规则,您可以设置多个报警规则的主体。
通道沉默周期
如果报警发生后未恢复正常,间隔多久再次发送一次报警通知。
生效时间
表示报警规则的有效时段,报警规则只在有效时段内才会检查监控数据是否需要报警。
报警联系人组
选择相应的报警联系人组,从而实现通过报警联系组接收报警通知的目的。
报警通知方式
选择报警通知方式和报警邮件主题。报警通知方式可选:
-
电话+短信+邮件+钉钉机器人
-
短信+邮件+钉钉机器人
-
邮件+钉钉机器人
报警邮件主题(非必填):填写后,发送报警的邮件通知中会附带您的备注信息。
报警回调地址(非必填)
填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
创建完成后,报警规则对当前实例生效。您可以在报警管理下查看已创建的报警规则。
单击报警管理页面的管理报警规则,可以跳转到云监控控制台查看或修改报警规则。
-
查看报警规则
在报警管理页面,您可以查看已创建的报警规则。
|
参数 |
说明 |
|
规则名称 |
CMS报警规则名称。 |
|
状态 |
当前报警规则在云监控服务中的生效状态,包括正常、报警、无数据、已禁用和已启用。 |
|
规则描述 |
报警规则的主体。当监控数据满足报警条件时,触发报警规则。 |
|
报警联系人组 |
发送报警的联系人组。 |
|
操作 |
|
模板服务范围
|
服务名称 |
组件名称 |
指标 |
说明 |
|
节点(Host) |
磁盘 |
emr_node_part_max_used |
每分钟检查一次指标数据是否满足平均值>80%,持续2个周期,满足条件则触发告警。 |
|
CPU |
emr_node_cpu_idle |
每分钟检查一次指标数据是否平均值<5%,持续5个周期,满足条件则触发告警。 |
|
|
内存 |
emr_node_mem_used_percent |
每分钟检查一次指标数据是否满足平均值>90%,持续2个周期,满足条件则触发告警。 |
|
|
HDFS |
NameNode |
hdfs_namenode_jvm_MemHeapUsedM / hdfs_namenode_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
NameNode |
hdfs_namenode_rpc_service_activity_CallQueueLength |
每分钟检查一次指标数据是否平均值>1000,持续2个周期,满足条件则触发告警。 |
|
|
NameNode |
hdfs_namenode_fsnamesystem_CorruptBlocks |
每分钟检查一次指标数据是否平均值>1,持续2个周期,满足条件则触发告警。 |
|
|
NameNode |
hdfs_namenode_safemode_status |
每分钟统计一次,如果发生1次处于safemode的情况,则触发告警。 |
|
|
DataNode |
hdfs_datanode_jvm_MemHeapUsedM / hdfs_datanode_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
|
Spark |
SparkHistoryServer |
spark_history_jvm_old_space_utilization |
每分钟检查一次指标数据是否平均值>95%,持续2个周期,满足条件则触发告警。 |
|
SparkThriftServer |
spark_thrift_driver_jvm_heap_used/spark_thrift_driver_jvm_heap_max |
每分钟检查一次指标数据是否平均值>95%,持续2个周期,满足条件则触发告警。 |
|
|
Hive |
HiveMetaStore |
hive_metastore_memory_heap_used/hive_metastore_memory_heap_max |
每分钟检查一次指标数据是否平均值>95%,持续2个周期,满足条件则触发告警。 |
|
HiveMetaStore |
hive_metastore_threads_blocked_count |
每分钟检查一次指标数据是否平均值>50%,持续2个周期,满足条件则触发告警。 |
|
|
HiveServer2 |
hive_server_memory_heap_used/hive_server_memory_heap_max |
每分钟检查一次指标数据是否平均值>95%,持续2个周期,满足条件则触发告警。 |
|
|
HiveServer2 |
hive_server_threads_deadlock_count |
每分钟检查一次指标数据是否平均值>50%,持续2个周期,满足条件则触发告警。 |
|
|
YARN |
ResourceManager |
yarn_cluster_status |
如果在过去5分钟内发生了多次HA切换(至少两次),或者存在无状态为1的节点,或者存在状态一直为-1的节点,则触发告警。 |
|
ResourceManager |
yarn_resourcemanager_jvm_MemHeapUsedM / yarn_resourcemanager_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
|
NodeManager |
yarn_cluster_unhealthyNodes |
每分钟检查一次指标数据是否平均值>1,持续2个周期,满足条件则触发告警。 |
|
|
NodeManager |
yarn_nodemanager_jvm_MemHeapUsedM / yarn_nodemanager_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
|
TimelineServer |
yarn_timelineserver_jvm_MemHeapUsedM / yarn_timelineserver_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
|
MRHistoryServer |
yarn_jobhistory_jvm_MemHeapUsedM / yarn_jobhistory_jvm_MemHeapMaxM |
每分钟检查一次指标数据是否满足平均值>95%,持续2个周期,或者没有指标产生,满足条件则触发告警。 |
|
|
Zookeeper |
Zookeeper |
zk_znode_count |
每分钟检查一次指标数据是否平均值>=10000,持续2个周期,满足条件则触发告警。 |
|
Zookeeper |
zk_watch_count |
每分钟检查一次指标数据是否平均值>=1000,持续2个周期,满足条件则触发告警。 |
|
|
Kafka |
KafkaBroker |
Kafka_Broker_kafka_log_LogManager_OfflineLogDirectoryCount |
每分钟检查一次指标数据是否平均值>0,持续2个周期,满足条件则触发告警。 |
|
Kafka_Broker_kafka_server_ReplicaManager_UnderReplicatedPartitions |
每分钟检查一次指标数据是否平均值>0,持续2个周期,满足条件则触发告警。 |
||
|
Presto/Trino |
Trino |
trino_QueryManager_FailedQueries_OneMinute_Count |
每分钟检查一次指标数据是否平均值>=1,持续2个周期,满足条件则触发告警。 |
|
trino_ClusterMemoryPool_name_general_BlockedNodes |
每分钟检查一次指标数据是否平均值>0,持续2个周期,满足条件则触发告警。 |
||
|
Presto |
presto_QueryManager_FailedQueries_OneMinute_Count |
每分钟检查一次指标数据是否平均值>=1,持续2个周期,满足条件则触发告警。 |
|
|
presto_ClusterMemoryPool_name_general_BlockedNodes |
每分钟检查一次指标数据是否平均值>0,持续2个周期,满足条件则触发告警。 |
||
|
Impala |
Impalad |
num_waiting_queries |
每分钟检查一次指标数据是否平均值>=10,持续2个周期,满足条件则触发告警。 说明
您可以根据集群查询并发调整阈值。 |
|
Kudu |
kudu-master |
kudu_cluster_replica_skew |
每分钟检查一次指标数据是否平均值>=1000,持续2个周期,满足条件则触发告警。 说明
您可以根据使用情况适当调整阈值。 |