配置事件报警

通过配置事件报警,您可以及时获取控制台事件中心中的Elasticsearch集群的底层硬件运维事件,便于您及时查看和处理问题。本文介绍如何配置事件报警以及查看和处理事件。

前提条件

已在支持事件报警功能的地域下创建阿里云Elasticsearch实例:

  • 支持事件报警功能的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。

  • 创建实例的具体操作,请参见创建阿里云Elasticsearch实例

创建报警规则

  1. 登录阿里云Elasticsearch控制台
  2. 进入报警组列表页面。

    您可以通过两种方式进入:

    • 在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,选择报警模块 > 报警组列表

    • 在概览页的事件中心区域,单击查看详情。再在高级监控报警的事件中心页面,单击事件报警通过事件中心进入报警组列表

  3. 创建事件报警。

    具体操作请参见创建报警组创建报警规则。对应的报警规则中配置的参数如下:

    • 因探测节点失联触发的节点重启事件,配置如下图所示。因探测节点失联触发的节点重启事件

    • 因底层资源运维触发的节点重启事件,配置如下图所示。因底层资源运维触发的节点重启事件

    规则配置的详细参数说明,请参见创建报警规则。本示例的部分参数说明如下。

    参数

    说明

    报警规则类型

    选择事件报警

    定义报警规则

    事件类型

    事件报警支持两种事件类型:

    • 因探测节点失联触发的节点重启

    • 因底层资源运维触发的节点重启

    报警范围

    选择报警的目标实例。默认为全区域下所有实例,您也可以选择自定义设置。选择自定义设置后,需要选择regioninstanceID

    • region:目标实例所在地域,可选择一个或多个。

    • instanceID:目标实例ID,可选择一个或多个。

    事件状态

    事件的状态,支持3种:已完成执行失败执行中

    说明
    • 对于因探测节点失联触发的节点重启事件,系统会自动执行至完成,目前仅支持对执行结果配置报警,暂无执行中的事件状态。

    • 对于因底层资源运维触发的节点重启事件,支持以上3种事件状态。

    说明
    • 目前已接入的底层运维事件,事件等级均为严重(CRITICAL)。

    • 阿里云Elasticsearch不支持在同一个报警规则中同时选择多种事件类型或多种事件状态,您可以通过在同一报警组中配置多条报警规则的方式实现。

  4. 配置接收报警通知。

    报警配置成功后,当您配置的事件发生时,您指定的报警通知人就可以通过配置的通知方式接收到报警通知,详细信息请参见通过钉钉群接收报警通知

查看并处理事件

  1. 查看事件。

    1. 登录阿里云Elasticsearch控制台

    2. 在概览页的事件中心区域,查看近48小时内新增的事件中,执行失败和执行完成的数量。

    3. 单击查看详情,进入事件中心页面,选择地域,查看对应地域下的事件。

      您可以按照实例ID或节点IP查找事件,也可以按照事件创建时间系统执行时间系统完成时间筛选事件。事件相关信息的详细说明,请参见事件中心查看事件

  2. 处理事件。

    对于执行失败的事件,如果事件类型因探测节点失联触发的节点重启,且事件状态执行失败时,支持用户在控制台进行手动重启节点进行异常干预。处理事件

    说明

    重启节点仅需执行一次,如果问题未修复,系统会在下一次探测到异常时再次通知您。