通过配置事件报警,您可以及时获取控制台事件中心中的Elasticsearch集群的底层硬件运维事件,便于您及时查看和处理问题。本文介绍如何配置事件报警以及查看和处理事件。
前提条件
已在支持事件报警功能的地域下创建阿里云Elasticsearch实例:
支持事件报警功能的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。
创建实例的具体操作,请参见创建阿里云Elasticsearch实例。
创建报警规则
- 登录阿里云Elasticsearch控制台。
进入报警组列表页面。
您可以通过两种方式进入:
在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,选择
。在概览页的事件中心区域,单击查看详情。再在高级监控报警的事件中心页面,单击事件报警。
创建事件报警。
具体操作请参见创建报警组和创建报警规则。对应的报警规则中配置的参数如下:
因探测节点失联触发的节点重启事件,配置如下图所示。
因底层资源运维触发的节点重启事件,配置如下图所示。
规则配置的详细参数说明,请参见创建报警规则。本示例的部分参数说明如下。
参数
说明
报警规则类型
选择事件报警。
定义报警规则
事件类型
事件报警支持两种事件类型:
因探测节点失联触发的节点重启
因底层资源运维触发的节点重启
报警范围
选择报警的目标实例。默认为全区域下所有实例,您也可以选择自定义设置。选择自定义设置后,需要选择region和instanceID:
region:目标实例所在地域,可选择一个或多个。
instanceID:目标实例ID,可选择一个或多个。
事件状态
事件的状态,支持3种:已完成、执行失败和执行中。
说明对于因探测节点失联触发的节点重启事件,系统会自动执行至完成,目前仅支持对执行结果配置报警,暂无执行中的事件状态。
对于因底层资源运维触发的节点重启事件,支持以上3种事件状态。
说明目前已接入的底层运维事件,事件等级均为严重(CRITICAL)。
阿里云Elasticsearch不支持在同一个报警规则中同时选择多种事件类型或多种事件状态,您可以通过在同一报警组中配置多条报警规则的方式实现。
配置接收报警通知。
报警配置成功后,当您配置的事件发生时,您指定的报警通知人就可以通过配置的通知方式接收到报警通知,详细信息请参见通过钉钉群接收报警通知。
查看并处理事件
查看事件。
在概览页的事件中心区域,查看近48小时内新增的事件中,执行失败和执行完成的数量。
单击查看详情,进入事件中心页面,选择地域,查看对应地域下的事件。
您可以按照实例ID或节点IP查找事件,也可以按照事件创建时间、系统执行时间或系统完成时间筛选事件。事件相关信息的详细说明,请参见事件中心。
处理事件。
对于执行失败的事件,如果事件类型为因探测节点失联触发的节点重启,且事件状态为执行失败时,支持用户在控制台进行手动重启节点进行异常干预。
说明重启节点仅需执行一次,如果问题未修复,系统会在下一次探测到异常时再次通知您。