您可通过事件中心查看阿里云Elasticsearch(简称ES)对应的系统运维事件,以便及时发现业务异常,快速分析并定位问题。本文介绍ES的事件分类,以及如何查看并处理事件。
事件分类
ES事件按照起因及影响程度划分为如下类型。
更多事件明细,请参见附录:事件明细。
|
事件分类 |
事件定义 |
起因及影响 |
事件示例 |
|
系统变更 |
由阿里方发起、用户被动感知的系统变更事件。需用户知晓并关注集群是否受影响。 |
因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响。触发该类事件系统会发送通知,请及时查看并检查集群状态。 |
|
|
集群健康 |
系统结合集群实际使用情况,支持通过定期巡检与监控告警指标两种方式检查集群健康度,并将诊断出的非预期结果作为事件展示。 |
为确保云服务的可持续性,当系统检测到集群资源异常或存在风险时,会自动触发集群健康事件,以最大限度减少影响。 说明
运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。若自动执行失败,您可在事件中心页面手动触发节点重启。人工干预窗口期为 |
巡检发现ES节点离线。 |
|
集群变更 |
由用户发起,涉及集群变更的操作事件。变更过程可能会出现失败、阻塞等问题。 |
因实例规格变更或内核升级等原因导致集群发生变更事件,会触发相应节点重启。运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。 |
|
查看并处理事件
在事件中心页面,您可查看当前登录账号下所产生的事件信息,并按需处理相关事件。
-
进入事件中心。
-
在左侧导航栏单击事件中心。
-
查看事件信息。
在事件中心页面,您可根据条件筛选,查看所选事件类型中,目标实例在指定时间段内产生的所有事件信息,并根据事件详情执行相关处理操作。事件中心页面包含系统变更、集群健康、集群变更三个页签,页面上方提供时间范围选择器和实例ID关键字搜索进行事件筛选,右上角可单击订阅事件或管理通知按钮。事件列表中操作建议列可单击重启或预约重启链接处理待执行事件。
事件信息及相关处理操作介绍如下。
事件信息
描述
实例ID
产生事件的阿里云ES实例ID。
节点ID
产生事件的实例节点ID。
事件等级
表示事件的严重程度,包括:
-
信息:记录系统正常运行时的状态或操作,常用于观察系统状态或进行调试。
-
警告:系统存在潜在问题或异常,但不影响当前运行,需持续关注。
-
严重:系统出现严重错误或故障,需立即处理,否则可能导致服务不可用或数据丢失。
事件状态
表示当前事件的执行状态,包括待执行、执行中、已执行、执行失败、执行中断、已取消、待确认执行、待继续变更、事件已发生、持续中、已恢复 状态。其中:
-
待执行:事件等待按照系统设置时间或您预约的时间执行。
-
待确认执行:可根据事件详情判断是否立即执行当前事件,或进行事件的快照备份。
说明-
仅系统变更事件中,部分本地盘相关的事件支持该状态。
-
仅部署类事件(例如,ES集群升级,部署新版本到指定节点)支持快照备份。
-
-
待继续变更:当前变更任务已完成灰度变更,需确认已变更节点和集群的稳定性,并判断是否执行后续任务。例如,某变更操作需先在部分节点测试执行,确保变更在小范围内验证通过后,再在全量节点执行。
对于执行失败、执行中断状态的事件,请及时查找原因并处理,以免影响业务的正常运行。
事件说明
事件产生的原因及影响描述。
发生时间及结束时间
事件的开始执行时间及执行结束时间。
计划执行时间及执行结束时间
事件的计划开始执行时间和预计执行结束时间。
说明仅系统变更事件支持设置该信息。
来源
表示事件的来源,包括:
-
主动告知:ES产生事件后主动推送事件到事件中心。
-
事件订阅:通过订阅来监听指定事件,当事件发生时,系统会收到相应通知。
操作建议
您可根据操作建议处理相关事件。不同事件支持的处理操作存在差异,具体请以实际界面为准。
-
联系技术支持:如对相关事件存在疑问,可联系技术支持咨询。
-
重启:立即重启相关实例的指定节点。
-
预约重启:需指定重启时间,系统会按照预约时间重启相关实例的指定节点。节点重启时间需晚于预约时间
5分钟,系统将于预约时间5分钟之内为您重启节点。
说明当前实例或节点执行重启、强制重启或灰度重启操作时,系统会自动触发执行该实例或节点的重启类事件,但重新部署类事件(例如,ES版本升级)仍需提交工单联系技术支持人员处理。
-
附录:事件明细
|
事件类型 |
事件Code及中文名称 |
云监控事件名称 |
原因分类 |
事件等级 |
事件说明及影响 |
|
系统变更事件 |
|
|
严重 |
因基础设施故障,本地盘无法正常使用。 该类事件需要后端重新部署,需提交工单联系技术支持人员处理。 |
|
|
|
严重 |
因基础设施故障,云盘性能受到影响。 |
||
|
|
严重 |
因基础设施存在潜在故障风险,可能导致实例停止。 |
||
|
|
严重 |
|
||
|
|
警告 |
|
||
|
集群健康事件 |
|
|
严重 |
因集群状态异常实例重启。 |
|
|
|
Cluster.StatusRed:集群健康状态变成Red |
严重 |
集群状态Red,存在未分配的主分片,数据不可用。 |
|
|
Cluster.StatusYellow:集群健康状态变更Yellow |
警告 |
集群状态Yellow,存在未分配的副本分片,冗余度降低。 |
|||
|
Node.Disconnected:集群节点离线或失联 |
严重 |
节点离线或失联,可能导致数据不可用或性能下降。 |
|||
|
|
JVMMemory.HeapMemoryHigh:堆内存使用率过高 |
警告 |
堆内存使用率过高,可能触发FullGC。 |
|
|
JVMMemory.HeapMemoryCritical:堆内存接近上限 |
严重 |
堆内存接近上限,极有可能OOM。 |
|||
|
JVMMemory.GCRateTooHigh:Old GC频繁 |
警告 |
Old GC过于频繁,影响性能 |
|||
|
|
CPU.PersistUsageHigh:CPU持续高负载 |
警告 |
CPU持续高负载,系统响应变慢 |
|
|
CPU.PersistUsageCritical:CPU持续高负载 |
严重 |
CPU持续高负载,系统响应变慢 |
|||
|
|
Disk.UsageHigh:磁盘使用率告警 |
警告 |
磁盘空间不足,新的分片将无法创建,需要清理或扩容 |
|
|
Disk.UsageCritical:磁盘使用率严重 |
严重 |
磁盘接近ES自动只读保护阈值(95%),影响数据正常写入,需紧急处理 |
|||
|
Disk.IndexReadOnly:索引进入只读状态 |
严重 |
索引被ES自动设置为只读(通常因磁盘满),无法写入 |
|||
|
|
Disk.IOUtilizationHigh:磁盘IO使用率较高 |
严重 |
磁盘IO使用率较高,读写延迟增加,建议您扩磁盘或使用更高性能的磁盘类型 |
|
|
|
ThreadPool.SearchQueueHigh:查询线程池队列堆积 |
警告 |
查询线程池队列堆积,查询响应变慢 |
|
|
ThreadPool.SearchRejected:查询请求被拒绝 |
严重 |
查询请求被拒绝,用户查询失败 |
|||
|
ThreadPool.WriteQueueHigh:写入线程池队列堆积 |
警告 |
写入线程池队列堆积,写入响应变慢 |
|||
|
ThreadPool.WriteRejected:索引请求被拒绝 |
严重 |
写入请求被拒绝,数据写入失败 |
|||
|
集群变更事件 |
|
|
信息 |
|
|
|
|
信息 |
|
||
|
|
信息 |
因更新内核版本导致实例重启。 |