通过配置事件报警,您可以及时获取控制台事件中心中的Elasticsearch集群的底层硬件运维事件,便于您及时查看和处理问题。本文介绍如何配置事件报警以及查看和处理事件。
前提条件
已在支持事件报警功能的地域下创建阿里云Elasticsearch实例:
- 支持事件报警功能的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度、印度尼西亚、中国香港,具体以控制台为准。
- 创建实例的具体操作,请参见创建阿里云Elasticsearch实例。
使用限制
事件报警功能存在地域限制,支持的地域仅包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度、印度尼西亚、中国香港,具体以控制台为准。
创建报警规则
- 登录阿里云Elasticsearch控制台。
- 进入报警组列表页面。
您可以通过两种方式进入:
- 在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,选择。
- 在概览页的事件中心区域,单击查看详情。再在高级监控报警的事件中心页面,单击事件报警。
- 创建事件报警。
具体操作请参见
创建报警组和
创建报警规则。对应的报警规则中配置的参数如下:
- 因探测节点失联触发的节点重启事件,配置如下图所示。
- 因底层资源运维触发的节点重启事件,配置如下图所示。
规则配置的详细参数说明,请参见
创建报警规则。本示例的部分参数说明如下。
参数 |
说明 |
报警规则类型 |
选择事件报警。
|
定义报警规则 |
事件类型 |
事件报警支持两种事件类型:
- 因探测节点失联触发的节点重启
- 因底层资源运维触发的节点重启
|
报警范围 |
选择报警的目标实例。默认为全区域下所有实例,您也可以选择自定义设置。选择自定义设置后,需要选择region和instanceID:
- region:目标实例所在地域,可选择一个或多个。
- instanceID:目标实例ID,可选择一个或多个。
|
事件状态 |
事件的状态,支持3种:已完成、执行失败和执行中。
说明
- 对于因探测节点失联触发的节点重启事件,系统会自动执行至完成,目前仅支持对执行结果配置报警,暂无执行中的事件状态。
- 对于因底层资源运维触发的节点重启事件,支持以上3种事件状态。
|
说明
- 目前已接入的底层运维事件,事件等级均为严重(CRITICAL)。
- 阿里云Elasticsearch不支持在同一个报警规则中同时选择多种事件类型或多种事件状态,您可以通过在同一报警组中配置多条报警规则的方式实现。
- 配置接收报警通知。
报警配置成功后,当您配置的事件发生时,您指定的报警通知人就可以通过配置的通知方式接收到报警通知,详细信息请参见
通过钉钉群接收报警通知。
查看并处理事件
- 查看事件。
- 登录阿里云Elasticsearch控制台。
- 在概览页的事件中心区域,查看近48小时内新增的事件中,执行失败和执行完成的数量。
- 单击查看详情,进入事件中心页面,选择地域,查看对应地域下的事件。
您可以按照实例ID或节点IP查找事件,也可以按照
事件创建时间、
系统执行时间或
系统完成时间筛选事件。事件相关信息的详细说明,请参见
事件中心。
- 处理事件。
对于执行失败的事件,如果
事件类型为
因探测节点失联触发的节点重启,且
事件状态为
执行失败时,支持用户在控制台进行手动重启节点进行异常干预。
说明 重启节点仅需执行一次,如果问题未修复,系统会在下一次探测到异常时再次通知您。