事件中心

通过阿里云Elasticsearch的事件中心功能,您可以查看对应的系统运维事件,并通过手动运维机制完成事件的追溯与处理。本文为您介绍如何查看事件并进行对应操作。

前提条件

已在支持事件中心功能的地域下创建阿里云Elasticsearch实例:

  • 支持事件中心功能的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。

  • 创建实例的具体操作,请参见创建阿里云Elasticsearch实例

注意事项

为保障云服务的可持续性,当探测到集群资源存在异常或风险,系统会自动触发硬件运维事件,从而最大程度减少对集群的影响,运维事件执行期间可能会造成集群短时间的抖动,但正常的集群访问不会受到影响。当系统无法自动执行或自动执行失败后,您可以在事件中心页面手动触发节点重启操作,人工可干预的窗口期为48小时。

查看事件

  1. 登录阿里云Elasticsearch控制台
  2. 进入事件中心页面。

    您可以通过以下两种方式进入事件中心页面:

    • 在概览页面的事件中心区域,单击查看详情

    • 在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,单击事件中心

  3. 选择地域,查看对应地域下的事件。

    您可以按照实例ID或节点IP查找事件,也可以按照事件创建时间系统执行时间系统完成时间筛选事件。查看事件

    通过事件中心,您可以查看事件的相关信息或根据事件状态进行相应操作,具体说明如下。

    事件信息

    说明

    实例ID/实例名称

    触发事件的目标实例ID和名称。单击实例ID,可进入实例管理页面查看实例的详细信息。

    事件等级

    事件的严重程度,包含:严重警告

    节点IP

    触发事件的目标节点的IP地址。

    事件状态

    事件的执行状态,包含:待执行执行中已完成执行失败已取消

    事件类型

    事件的类型,包含:因探测节点失联触发的节点重启因底层资源运维触发的节点重启

    事件创建时间

    系统探测到事件的时间。

    系统执行时间

    系统自动运维动作的开始时间。

    系统完成时间

    系统自动运维动作的结束时间,不受事件状态(成功/失败)影响。

    操作

    当事件状态为执行失败时,在系统完成时间后的48小时窗口期内,您可以在操作列下单击重启节点,手动重启对应节点。

    重要

    重启操作会触发底层资源重启,为了您的集群稳定性,请不要在集群变更期间重启,并在重启后30分钟内避免对集群进行其他变更。若重启未能生效,系统会在下一次探测到异常后为您生成新事件。