通过阿里云Elasticsearch的事件中心功能,您可以查看对应的系统运维事件,并通过手动运维机制完成事件的追溯与处理。本文为您介绍如何查看事件并进行对应操作。
前提条件
已在支持事件中心功能的地域下创建阿里云Elasticsearch实例:
支持事件中心功能的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。
创建实例的具体操作,请参见创建阿里云Elasticsearch实例。
注意事项
为保障云服务的可持续性,当探测到集群资源存在异常或风险,系统会自动触发硬件运维事件,从而最大程度减少对集群的影响,运维事件执行期间可能会造成集群短时间的抖动,但正常的集群访问不会受到影响。当系统无法自动执行或自动执行失败后,您可以在事件中心页面手动触发节点重启操作,人工可干预的窗口期为48小时。
查看事件
- 登录阿里云Elasticsearch控制台。
进入事件中心页面。
您可以通过以下两种方式进入事件中心页面:
在概览页面的事件中心区域,单击查看详情。
在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,单击事件中心。
选择地域,查看对应地域下的事件。
您可以按照实例ID或节点IP查找事件,也可以按照事件创建时间、系统执行时间或系统完成时间筛选事件。
通过事件中心,您可以查看事件的相关信息或根据事件状态进行相应操作,具体说明如下。
事件信息
说明
实例ID/实例名称
触发事件的目标实例ID和名称。单击实例ID,可进入实例管理页面查看实例的详细信息。
事件等级
事件的严重程度,包含:严重、警告。
节点IP
触发事件的目标节点的IP地址。
事件状态
事件的执行状态,包含:待执行、执行中、已完成、执行失败、已取消。
事件类型
事件的类型,包含:因探测节点失联触发的节点重启、因底层资源运维触发的节点重启。
事件创建时间
系统探测到事件的时间。
系统执行时间
系统自动运维动作的开始时间。
系统完成时间
系统自动运维动作的结束时间,不受事件状态(成功/失败)影响。
操作
当事件状态为执行失败时,在系统完成时间后的48小时窗口期内,您可以在操作列下单击重启节点,手动重启对应节点。
重要重启操作会触发底层资源重启,为了您的集群稳定性,请不要在集群变更期间重启,并在重启后30分钟内避免对集群进行其他变更。若重启未能生效,系统会在下一次探测到异常后为您生成新事件。