您可通过事件中心查看阿里云Elasticsearch(简称ES)对应的系统运维事件,以便及时发现业务异常,快速分析并定位问题。本文介绍ES的事件分类,以及如何查看并处理事件。
事件分类
ES事件按照起因及影响程度划分为如下类型。
更多事件明细,请参见附录:事件明细。
事件分类 | 事件定义 | 起因及影响 | 事件示例 |
系统变更 | 由阿里方发起、用户被动感知的系统变更事件。需用户知晓并关注集群是否受影响。 | 因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响。触发该类事件系统会发送通知,请及时查看并检查集群状态。 |
|
集群健康 | 系统结合集群实际使用情况,支持通过定期巡检与监控告警指标两种方式检查集群健康度,并将诊断出的非预期结果作为事件展示。 | 为确保云服务的可持续性,当系统检测到集群资源异常或存在风险时,会自动触发集群健康事件,以最大限度减少影响。 说明 运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。若自动执行失败,您可在事件中心页面手动触发节点重启。人工干预窗口期为 | 巡检发现ES节点离线。 |
集群变更 | 由用户发起,涉及集群变更的操作事件。变更过程可能会出现失败、阻塞等问题。 | 因实例规格变更或内核升级等原因导致集群发生变更事件,会触发相应节点重启。运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。 |
|
查看并处理事件
在事件中心页面,您可查看当前登录账号下所产生的事件信息,并按需处理相关事件。
进入事件中心。
在左侧导航栏单击事件中心。
查看事件信息。
在事件中心页面,您可根据条件筛选,查看所选事件类型中,目标实例在指定时间段内产生的所有事件信息,并根据事件详情执行相关处理操作。

事件信息及相关处理操作介绍如下。
事件信息
描述
实例ID
产生事件的阿里云ES实例ID。
节点ID
产生事件的实例节点ID。
事件等级
表示事件的严重程度,包括:
信息:记录系统正常运行时的状态或操作,常用于观察系统状态或进行调试。
警告:系统存在潜在问题或异常,但不影响当前运行,需持续关注。
严重:系统出现严重错误或故障,需立即处理,否则可能导致服务不可用或数据丢失。
事件状态
表示当前事件的执行状态,包括待执行、执行中、已执行、执行失败、执行中断、已取消、待确认执行、待继续变更、事件已发生、持续中、已恢复状态。其中:
待执行:事件等待按照系统设置时间或您预约的时间执行。
待确认执行:可根据事件详情判断是否立即执行当前事件,或进行事件的快照备份。
说明仅系统变更事件中,部分本地盘相关的事件支持该状态。
仅部署类事件(例如,ES集群升级,部署新版本到指定节点)支持快照备份。
待继续变更:当前变更任务已完成灰度变更,需确认已变更节点和集群的稳定性,并判断是否执行后续任务。例如,某变更操作需先在部分节点测试执行,确保变更在小范围内验证通过后,再在全量节点执行。
对于执行失败、执行中断状态的事件,请及时查找原因并处理,以免影响业务的正常运行。
事件说明
事件产生的原因及影响描述。
发生时间及结束时间
事件的开始执行时间及执行结束时间。
计划执行时间及执行结束时间
事件的计划开始执行时间和预计执行结束时间。
说明仅系统变更事件支持设置该信息。
来源
表示事件的来源,包括:
主动告知:ES产生事件后主动推送事件到事件中心。
事件订阅:通过订阅来监听指定事件,当事件发生时,系统会收到相应通知。
操作建议
您可根据操作建议处理相关事件。不同事件支持的处理操作存在差异,具体请以实际界面为准。
联系技术支持:如对相关事件存在疑问,可联系技术支持咨询。
重启:立即重启相关实例的指定节点。
预约重启:需指定重启时间,系统会按照预约时间重启相关实例的指定节点。节点重启时间需晚于预约时间
5分钟,系统将于预约时间5分钟之内为您重启节点。
说明当前实例或节点执行重启、强制重启或灰度重启操作时,系统会自动触发执行该实例或节点的重启类事件,但重新部署类事件(例如,ES版本升级)仍需提交工单联系技术支持人员处理。
附录:事件明细
事件类型 | 事件Code及中文名称 | 云监控事件名称 | 原因分类 | 事件等级 | 事件说明及影响 |
系统变更事件 |
|
| 严重 | 因基础设施故障,本地盘无法正常使用。 该类事件需要后端重新部署,需提交工单联系技术支持人员处理。 | |
|
| 严重 | 因基础设施故障,云盘性能受到影响。 | ||
|
| 严重 | 因基础设施存在潜在故障风险,可能导致实例停止。 | ||
|
| 严重 |
| ||
|
| 警告 |
| ||
集群健康事件 |
|
| 严重 | 因集群状态异常实例重启。 | |
|
| Cluster.StatusRed:集群健康状态变成Red | 严重 | 集群状态Red,存在未分配的主分片,数据不可用。 | |
Cluster.StatusYellow:集群健康状态变更Yellow | 警告 | 集群状态Yellow,存在未分配的副本分片,冗余度降低。 | |||
Node.Disconnected:集群节点离线或失联 | 严重 | 节点离线或失联,可能导致数据不可用或性能下降。 | |||
|
| JVMMemory.HeapMemoryHigh:堆内存使用率过高 | 警告 | 堆内存使用率过高,可能触发FullGC。 | |
JVMMemory.HeapMemoryCritical:堆内存接近上限 | 严重 | 堆内存接近上限,极有可能OOM。 | |||
JVMMemory.GCRateTooHigh:Old GC频繁 | 警告 | Old GC过于频繁,影响性能 | |||
|
| CPU.PersistUsageHigh:CPU持续高负载 | 警告 | CPU持续高负载,系统响应变慢 | |
CPU.PersistUsageCritical:CPU持续高负载 | 严重 | CPU持续高负载,系统响应变慢 | |||
|
| Disk.UsageHigh:磁盘使用率告警 | 警告 | 磁盘空间不足,新的分片将无法创建,需要清理或扩容 | |
Disk.UsageCritical:磁盘使用率严重 | 严重 | 磁盘接近ES自动只读保护阈值(95%),影响数据正常写入,需紧急处理 | |||
Disk.IndexReadOnly:索引进入只读状态 | 严重 | 索引被ES自动设置为只读(通常因磁盘满),无法写入 | |||
|
| Disk.IOUtilizationHigh:磁盘IO使用率较高 | 严重 | 磁盘IO使用率较高,读写延迟增加,建议您扩磁盘或使用更高性能的磁盘类型 | |
|
| ThreadPool.SearchQueueHigh:查询线程池队列堆积 | 警告 | 查询线程池队列堆积,查询响应变慢 | |
ThreadPool.SearchRejected:查询请求被拒绝 | 严重 | 查询请求被拒绝,用户查询失败 | |||
ThreadPool.WriteQueueHigh:写入线程池队列堆积 | 警告 | 写入线程池队列堆积,写入响应变慢 | |||
ThreadPool.WriteRejected:索引请求被拒绝 | 严重 | 写入请求被拒绝,数据写入失败 | |||
集群变更事件 |
|
| 信息 |
| |
|
| 信息 |
| ||
|
| 信息 | 因更新内核版本导致实例重启。 |