如何查看并处理阿里云Elasticsearch运维事件-检索分析服务 Elasticsearch版(ES)-阿里云帮助中心

您可通过事件中心查看阿里云Elasticsearch（简称ES）对应的系统运维事件，以便及时发现业务异常，快速分析并定位问题。本文介绍ES的事件分类，以及如何查看并处理事件。

事件分类

ES事件按照起因及影响程度划分为如下类型。

说明

更多事件明细，请参见附录：事件明细。

事件分类	事件定义	起因及影响	事件示例
系统变更	由阿里方发起、用户被动感知的系统变更事件。需用户知晓并关注集群是否受影响。	因基础设施变更或故障产生的系统变更事件，可能会导致集群访问受到影响。触发该类事件系统会发送通知，请及时查看并检查集群状态。	Kibana功能升级，短时间停用。 AMD机型升级至最新一代。
集群健康	系统结合集群实际使用情况，支持通过定期巡检与监控告警指标两种方式检查集群健康度，并将诊断出的非预期结果作为事件展示。	为确保云服务的可持续性，当系统检测到集群资源异常或存在风险时，会自动触发集群健康事件，以最大限度减少影响。说明运维事件执行期间可能会导致集群出现短暂的抖动，但不会影响正常访问。若自动执行失败，您可在事件中心页面手动触发节点重启。人工干预窗口期为`24~48`小时，具体执行时间可参考查看并处理事件。	巡检发现ES节点离线。
集群变更	由用户发起，涉及集群变更的操作事件。变更过程可能会出现失败、阻塞等问题。	因实例规格变更或内核升级等原因导致集群发生变更事件，会触发相应节点重启。运维事件执行期间可能会导致集群出现短暂的抖动，但不会影响正常访问。	缩容重启节点

查看并处理事件

在事件中心页面，您可查看当前登录账号下所产生的事件信息，并按需处理相关事件。

进入事件中心。
1. 登录阿里云Elasticsearch控制台。
2. 在左侧导航栏单击事件中心。

查看事件信息。

在事件中心页面，您可根据条件筛选，查看所选事件类型中，目标实例在指定时间段内产生的所有事件信息，并根据事件详情执行相关处理操作。事件中心页面包含系统变更、集群健康、集群变更三个页签，页面上方提供时间范围选择器和实例ID关键字搜索进行事件筛选，右上角可单击订阅事件或管理通知按钮。事件列表中操作建议列可单击重启或预约重启链接处理待执行事件。

说明

您可在事件中心查看全量事件信息，也可根据业务情况，针对需要及时处理的关键报警进行事件订阅并设置通知，当触发相应报警时，系统会以电话、短信、邮件等形式，自动发送报警通知给报警联系人。

事件信息及相关处理操作介绍如下。

事件信息	描述
实例ID	产生事件的阿里云ES实例ID。
节点ID	产生事件的实例节点ID。
事件等级	表示事件的严重程度，包括：信息：记录系统正常运行时的状态或操作，常用于观察系统状态或进行调试。警告：系统存在潜在问题或异常，但不影响当前运行，需持续关注。严重：系统出现严重错误或故障，需立即处理，否则可能导致服务不可用或数据丢失。
事件状态	表示当前事件的执行状态，包括待执行、执行中、已执行、执行失败、执行中断、已取消、待确认执行、待继续变更、事件已发生、持续中、已恢复状态。其中：待执行：事件等待按照系统设置时间或您预约的时间执行。待确认执行：可根据事件详情判断是否立即执行当前事件，或进行事件的快照备份。说明仅系统变更事件中，部分本地盘相关的事件支持该状态。仅部署类事件（例如，ES集群升级，部署新版本到指定节点）支持快照备份。待继续变更：当前变更任务已完成灰度变更，需确认已变更节点和集群的稳定性，并判断是否执行后续任务。例如，某变更操作需先在部分节点测试执行，确保变更在小范围内验证通过后，再在全量节点执行。对于执行失败、执行中断状态的事件，请及时查找原因并处理，以免影响业务的正常运行。
事件说明	事件产生的原因及影响描述。
发生时间及结束时间	事件的开始执行时间及执行结束时间。
计划执行时间及执行结束时间	事件的计划开始执行时间和预计执行结束时间。说明仅系统变更事件支持设置该信息。
计划执行时间及执行结束时间	事件的计划开始执行时间和预计执行结束时间。说明仅系统变更事件支持设置该信息。
来源	表示事件的来源，包括：主动告知：ES产生事件后主动推送事件到事件中心。事件订阅：通过订阅来监听指定事件，当事件发生时，系统会收到相应通知。
操作建议	您可根据操作建议处理相关事件。不同事件支持的处理操作存在差异，具体请以实际界面为准。联系技术支持：如对相关事件存在疑问，可联系技术支持咨询。重启：立即重启相关实例的指定节点。预约重启：需指定重启时间，系统会按照预约时间重启相关实例的指定节点。节点重启时间需晚于预约时间`5`分钟，系统将于预约时间`5`分钟之内为您重启节点。说明当前实例或节点执行重启、强制重启或灰度重启操作时，系统会自动触发执行该实例或节点的重启类事件，但重新部署类事件（例如，ES版本升级）仍需提交工单联系技术支持人员处理。

附录：事件明细

事件类型	事件Code及中文名称	云监控事件名称	原因分类	事件等级	事件说明及影响
系统变更事件	SystemUpdate.InfraDiskError 因基础设施磁盘故障的系统变更事件	`Instance:SystemUpdate.InfraDiskError:Executing`：因基础设施磁盘故障的系统变更执行中事件 `Instance:SystemUpdate.InfraDiskError:Executed`：因基础设施磁盘故障的系统变更执行完成事件		严重	因基础设施故障，本地盘无法正常使用。该类事件需要后端重新部署，需提交工单联系技术支持人员处理。
	SystemUpdate.InfraDiskStalled 因基础设施磁盘性能问题的系统变更事件	`Instance:SystemUpdate.InfraDiskstalled:Executing`：因基础设施磁盘性能问题的系统变更执行中事件 `Instance:SystemUpdate.InfraDiskstalled:Executed`：因基础设施磁盘性能问题的系统变更执行完成事件		严重	因基础设施故障，云盘性能受到影响。
	SystemUpdate.InfraFailureStop 因基础设施故障停止的系统变更事件	`Instance:SystemUpdate.InfraFailureStop:Scheduled`：因基础设施故障停止的系统变更执行计划事件 `Instance:SystemUpdate.InfraFailureStop:Executing`：因基础设施故障停止的系统变更执行中事件 `Instance:SystemUpdate.InfraFailureStop:Executed`：因基础设施故障停止的系统变更执行完成事件 `Instance:SystemUpdate.InfraFailureStop:Failed`：因基础设施故障停止的系统变更执行失败事件		严重	因基础设施存在潜在故障风险，可能导致实例停止。


	SystemUpdate.InfraMigrate 因基础设施变更升级的系统变更事件	`Instance:SystemUpdate.InfraMigrate:Scheduled`：因基础设施变更升级的系统变更执行计划事件 `Instance:SystemUpdate.InfraMigrate:Executing`：因基础设施变更升级的系统变更执行中事件 `Instance:SystemUpdate.InfraMigrate:Executed`：因基础设施变更升级的系统变更执行完成事件 `Instance:SystemUpdate.InfraMigrate:Failed`：因基础设施变更升级的系统变更执行失败事件		严重	因基础设施维护实例节点重启。因基础设施维护实例节点重新部署。
	SystemUpdate.SoftwareRepair 因管控系统软件更新的系统变更事件	`Instance:SystemUpdate.SoftwareRepair:Scheduled`：因软件更新的系统变更事件执行计划事件 `Instance:SystemUpdate.SoftwareRepair:Executing`：因软件更新的系统变更执行中事件 `Instance:SystemUpdate.SoftwareRepair:Executed`：因软件更新的系统变更执行完成事件		警告	事件说明：因集群管控系统升级重启，即阿里云实例架构升级，管控部署模式由基础管控（v2）升级为云原生新管控（v3）。说明您可在实例基本信息页面查看管控部署模式。事件影响：升级会在预定时间段内通过蓝绿变更执行，过程中集群节点个数翻倍，但不涉及费用问题。升级过程持续数小时（与数据量相关），会在您设置的可运维时间段下线旧节点，此过程存在约`1~2`秒的服务中断。升级期间不支持执行实例变更操作，请提前做好相关业务准备。 `6.8.6`版本的集群会升级到`6.8.23`版本，引擎完全兼容且业务不受影响。升级后，Kibana私网会处于关闭状态，需登录Kibana控制台自行开启。
集群健康事件	HealthCheck.ClusterAbnormal 因集群状态异常的集群健康事件	`Instance:HealthCheck.ClusterAbnormal:Executed`：因集群状态异常的集群健康执行完成事件 `Instance:HealthCheck.ClusterAbnormal:Failed`：因集群状态异常的集群健康执行失败事件		严重	因集群状态异常实例重启。
	HealthCheck.ClusterAbnormal 因集群状态异常的集群健康事件			严重	因集群状态异常实例重启。
	HealthCheck.ClusterUnhealthy 因集群状态异常的集群健康事件	`Instance:HealthCheck:ClusterUnhealthy:Occurred`：集群状态异常健康检查发生中事件 `Instance:HealthCheck:ClusterUnhealthy:Persistent`：集群状态异常健康检查持续中事件 `Instance:HealthCheck:ClusterUnhealthy:Recovered`：集群状态异常健康检查已回访事件	Cluster.StatusRed：集群健康状态变成Red	严重	集群状态Red，存在未分配的主分片，数据不可用。
			Cluster.StatusYellow：集群健康状态变更Yellow	警告	集群状态Yellow，存在未分配的副本分片，冗余度降低。
			Node.Disconnected：集群节点离线或失联	严重	节点离线或失联，可能导致数据不可用或性能下降。
	HealthCheck.JVMMemoryPressure 因JVM内存压力的资源异常事件	`Instance:HealthCheck:JVMMemoryPressure:Occurred` `Instance:HealthCheck:JVMMemoryPressure:Persistent` `Instance:HealthCheck:JVMMemoryPressure:Recovered`	JVMMemory.HeapMemoryHigh：堆内存使用率过高	警告	堆内存使用率过高，可能触发FullGC。
			JVMMemory.HeapMemoryCritical：堆内存接近上限	严重	堆内存接近上限，极有可能OOM。
			JVMMemory.GCRateTooHigh：Old GC频繁	警告	Old GC过于频繁，影响性能
	HealthCheck.CPULoadHigh 因CPU高负载的资源异常事件	`Instance:HealthCheck:CPULoadHigh:Occurred` `Instance:HealthCheck:CPULoadHigh:Persistent` `Instance:HealthCheck:CPULoadHigh:Recovered`	CPU.PersistUsageHigh：CPU持续高负载	警告	CPU持续高负载，系统响应变慢
	HealthCheck.CPULoadHigh 因CPU高负载的资源异常事件		CPU.PersistUsageCritical：CPU持续高负载	严重	CPU持续高负载，系统响应变慢
	HealthCheck.DiskUsageHigh 因磁盘使用率高的资源异常事件	`Instance:HealthCheck:DiskUsageHigh:Occurred` `Instance:HealthCheck:DiskUsageHigh:Persistent` `Instance:HealthCheck:DiskUsageHigh:Recovered`	Disk.UsageHigh：磁盘使用率告警	警告	磁盘空间不足，新的分片将无法创建，需要清理或扩容
			Disk.UsageCritical：磁盘使用率严重	严重	磁盘接近ES自动只读保护阈值(95%)，影响数据正常写入，需紧急处理
			Disk.IndexReadOnly：索引进入只读状态	严重	索引被ES自动设置为只读（通常因磁盘满），无法写入
	HealthCheck.DiskIOBottleneck 因磁盘IO瓶颈的资源异常事件	`Instance:HealthCheck:DiskIOBottleneck:Occurred` `Instance:HealthCheck:DiskIOBottleneck:Persistent` `Instance:HealthCheck:DiskIOBottleneck:Recovered`	Disk.IOUtilizationHigh：磁盘IO使用率较高	严重	磁盘IO使用率较高，读写延迟增加，建议您扩磁盘或使用更高性能的磁盘类型
	HealthCheck.ThreadPoolSaturation 因线程池饱和的性能瓶颈事件	`Instance:HealthCheck:ThreadPoolSaturation:Occurred` `Instance:HealthCheck:ThreadPoolSaturation:Persistent` `Instance:HealthCheck:ThreadPoolSaturation:Recovered`	ThreadPool.SearchQueueHigh：查询线程池队列堆积	警告	查询线程池队列堆积，查询响应变慢
			ThreadPool.SearchRejected：查询请求被拒绝	严重	查询请求被拒绝，用户查询失败
			ThreadPool.WriteQueueHigh：写入线程池队列堆积	警告	写入线程池队列堆积，写入响应变慢
			ThreadPool.WriteRejected：索引请求被拒绝	严重	写入请求被拒绝，数据写入失败
集群变更事件	UserOperator.InstanceSpecModify 因实例规格变更的集群变更事件	`Instance:UserOperator.InstanceSpecModify:Executig`：因实例规格变更的集群变更执行中事件 `Instance:UserOperator.InstanceSpecModify:Executed`：因实例规格变更的集群变更执行完成事件		信息	因实例规格变更导致实例重启。因实例节点变更实例节点重启。
	UserOperator.InstanceSpecModify 因实例规格变更的集群变更事件			信息	因实例规格变更导致实例重启。因实例节点变更实例节点重启。
	UserOperator.InstanceUpdate 因实例变更操作的集群变更事件	`Instance:UserOperator.InstanceUpdate:Executing`：因实例变更操作的集群变更执行中事件 `Instance:UserOperator.InstanceUpdate:Executed`：因实例变更操作的集群变更执行完成事件		信息	因实例配置变更导致实例重启。因实例插件更新。因实例IK词库插件热更新。




	UserOperator.InstanceCoreUpdate 因实例内核升级的集群变更事件	`Instance:UserOperator.InstanceCoreUpdate:Executig`：因实例内核升级的集群变更执行中事件 `Instance:UserOperator.InstanceCoreUpdate:Executed`：因实例内核升级的集群变更执行完成事件		信息	因更新内核版本导致实例重启。