事件中心

更新时间:
复制为 MD 格式

您可通过事件中心查看阿里云Elasticsearch(简称ES)对应的系统运维事件,以便及时发现业务异常,快速分析并定位问题。本文介绍ES的事件分类,以及如何查看并处理事件。

事件分类

ES事件按照起因及影响程度划分为如下类型。

说明

更多事件明细,请参见附录:事件明细

事件分类

事件定义

起因及影响

事件示例

系统变更

由阿里方发起、用户被动感知的系统变更事件。需用户知晓并关注集群是否受影响。

因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响。触发该类事件系统会发送通知,请及时查看并检查集群状态。

  • Kibana功能升级,短时间停用。

  • AMD机型升级至最新一代。

集群健康

系统结合集群实际使用情况,支持通过定期巡检与监控告警指标两种方式检查集群健康度,并将诊断出的非预期结果作为事件展示。

为确保云服务的可持续性,当系统检测到集群资源异常或存在风险时,会自动触发集群健康事件,以最大限度减少影响。

说明

运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。若自动执行失败,您可在事件中心页面手动触发节点重启。人工干预窗口期为24~48小时,具体执行时间可参考查看并处理事件

巡检发现ES节点离线。

集群变更

由用户发起,涉及集群变更的操作事件。变更过程可能会出现失败、阻塞等问题。

因实例规格变更或内核升级等原因导致集群发生变更事件,会触发相应节点重启。运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。

  • 缩容

  • 重启节点

查看并处理事件

在事件中心页面,您可查看当前登录账号下所产生的事件信息,并按需处理相关事件。

  1. 进入事件中心。

    1. 登录阿里云Elasticsearch控制台

    2. 在左侧导航栏单击事件中心

  2. 查看事件信息。

    事件中心页面,您可根据条件筛选,查看所选事件类型中,目标实例在指定时间段内产生的所有事件信息,并根据事件详情执行相关处理操作。image

    说明

    您可在事件中心查看全量事件信息,也可根据业务情况,针对需要及时处理的关键报警进行事件订阅设置通知,当触发相应报警时,系统会以电话、短信、邮件等形式,自动发送报警通知给报警联系人。

    事件信息及相关处理操作介绍如下。

    事件信息

    描述

    实例ID

    产生事件的阿里云ES实例ID。

    节点ID

    产生事件的实例节点ID。

    事件等级

    表示事件的严重程度,包括:

    • 信息:记录系统正常运行时的状态或操作,常用于观察系统状态或进行调试。

    • 警告:系统存在潜在问题或异常,但不影响当前运行,需持续关注。

    • 严重:系统出现严重错误或故障,需立即处理,否则可能导致服务不可用或数据丢失。

    事件状态

    表示当前事件的执行状态,包括待执行执行中已执行执行失败执行中断已取消待确认执行待继续变更、事件已发生持续中已恢复状态。其中:

    • 待执行:事件等待按照系统设置时间或您预约的时间执行。

    • 待确认执行:可根据事件详情判断是否立即执行当前事件,或进行事件的快照备份。

      说明
      • 仅系统变更事件中,部分本地盘相关的事件支持该状态。

      • 仅部署类事件(例如,ES集群升级,部署新版本到指定节点)支持快照备份。

    • 待继续变更:当前变更任务已完成灰度变更,需确认已变更节点和集群的稳定性,并判断是否执行后续任务。例如,某变更操作需先在部分节点测试执行,确保变更在小范围内验证通过后,再在全量节点执行。

    对于执行失败执行中断状态的事件,请及时查找原因并处理,以免影响业务的正常运行。

    事件说明

    事件产生的原因及影响描述。

    发生时间结束时间

    事件的开始执行时间及执行结束时间。

    计划执行时间执行结束时间

    事件的计划开始执行时间和预计执行结束时间。

    说明

    仅系统变更事件支持设置该信息。

    来源

    表示事件的来源,包括:

    • 主动告知:ES产生事件后主动推送事件到事件中心。

    • 事件订阅:通过订阅来监听指定事件,当事件发生时,系统会收到相应通知。

    操作建议

    您可根据操作建议处理相关事件。不同事件支持的处理操作存在差异,具体请以实际界面为准。

    • 联系技术支持:如对相关事件存在疑问,可联系技术支持咨询。

    • 重启:立即重启相关实例的指定节点。

    • 预约重启:需指定重启时间,系统会按照预约时间重启相关实例的指定节点。节点重启时间需晚于预约时间5分钟,系统将于预约时间5分钟之内为您重启节点。

    说明

    当前实例或节点执行重启、强制重启或灰度重启操作时,系统会自动触发执行该实例或节点的重启类事件,但重新部署类事件(例如,ES版本升级)仍需提交工单联系技术支持人员处理。

附录:事件明细

事件类型

事件Code及中文名称

云监控事件名称

原因分类

事件等级

事件说明及影响

系统变更事件

  • SystemUpdate.InfraDiskError

  • 因基础设施磁盘故障的系统变更事件

  • Instance:SystemUpdate.InfraDiskError:Executing:因基础设施磁盘故障的系统变更执行中事件

  • Instance:SystemUpdate.InfraDiskError:Executed:因基础设施磁盘故障的系统变更执行完成事件

严重

因基础设施故障,本地盘无法正常使用。

该类事件需要后端重新部署,需提交工单联系技术支持人员处理。

  • SystemUpdate.InfraDiskStalled

  • 因基础设施磁盘性能问题的系统变更事件

  • Instance:SystemUpdate.InfraDiskstalled:Executing:因基础设施磁盘性能问题的系统变更执行中事件

  • Instance:SystemUpdate.InfraDiskstalled:Executed:因基础设施磁盘性能问题的系统变更执行完成事件

严重

因基础设施故障,云盘性能受到影响。

  • SystemUpdate.InfraFailureStop

  • 因基础设施故障停止的系统变更事件

  • Instance:SystemUpdate.InfraFailureStop:Scheduled:因基础设施故障停止的系统变更执行计划事件

  • Instance:SystemUpdate.InfraFailureStop:Executing:因基础设施故障停止的系统变更执行中事件

  • Instance:SystemUpdate.InfraFailureStop:Executed:因基础设施故障停止的系统变更执行完成事件

  • Instance:SystemUpdate.InfraFailureStop:Failed:因基础设施故障停止的系统变更执行失败事件

严重

因基础设施存在潜在故障风险,可能导致实例停止。

  • SystemUpdate.InfraMigrate

  • 因基础设施变更升级的系统变更事件

  • Instance:SystemUpdate.InfraMigrate:Scheduled:因基础设施变更升级的系统变更执行计划事件

  • Instance:SystemUpdate.InfraMigrate:Executing:因基础设施变更升级的系统变更执行中事件

  • Instance:SystemUpdate.InfraMigrate:Executed:因基础设施变更升级的系统变更执行完成事件

  • Instance:SystemUpdate.InfraMigrate:Failed:因基础设施变更升级的系统变更执行失败事件

严重

  • 因基础设施维护实例节点重启。

  • 因基础设施维护实例节点重新部署。

  • SystemUpdate.SoftwareRepair

  • 因管控系统软件更新的系统变更事件

  • Instance:SystemUpdate.SoftwareRepair:Scheduled:因软件更新的系统变更事件执行计划事件

  • Instance:SystemUpdate.SoftwareRepair:Executing:因软件更新的系统变更执行中事件

  • Instance:SystemUpdate.SoftwareRepair:Executed:因软件更新的系统变更执行完成事件

警告

  • 事件说明:因集群管控系统升级重启,即阿里云实例架构升级,管控部署模式由基础管控(v2)升级为云原生新管控(v3)。

    说明

    您可在实例基本信息页面查看管控部署模式。

  • 事件影响

    • 升级会在预定时间段内通过蓝绿变更执行,过程中集群节点个数翻倍,但不涉及费用问题。

    • 升级过程持续数小时(与数据量相关),会在您设置的可运维时间段下线旧节点,此过程存在约1~2秒的服务中断。升级期间不支持执行实例变更操作,请提前做好相关业务准备。

    • 6.8.6版本的集群会升级到6.8.23版本,引擎完全兼容且业务不受影响。

    • 升级后,Kibana私网会处于关闭状态,需登录Kibana控制台自行开启。

集群健康事件

  • HealthCheck.ClusterAbnormal

  • 因集群状态异常的集群健康事件

  • Instance:HealthCheck.ClusterAbnormal:Executed:因集群状态异常的集群健康执行完成事件

  • Instance:HealthCheck.ClusterAbnormal:Failed:因集群状态异常的集群健康执行失败事件

严重

因集群状态异常实例重启。

  • HealthCheck.ClusterUnhealthy

  • 因集群状态异常的集群健康事件

  • Instance:HealthCheck:ClusterUnhealthy:Occurred:集群状态异常健康检查发生中事件

  • Instance:HealthCheck:ClusterUnhealthy:Persistent:集群状态异常健康检查持续中事件

  • Instance:HealthCheck:ClusterUnhealthy:Recovered:集群状态异常健康检查已回访事件

Cluster.StatusRed:集群健康状态变成Red

严重

集群状态Red,存在未分配的主分片,数据不可用。

Cluster.StatusYellow:集群健康状态变更Yellow

警告

集群状态Yellow,存在未分配的副本分片,冗余度降低。

Node.Disconnected:集群节点离线或失联

严重

节点离线或失联,可能导致数据不可用或性能下降。

  • HealthCheck.JVMMemoryPressure

  • JVM内存压力的资源异常事件

  • Instance:HealthCheck:JVMMemoryPressure:Occurred

  • Instance:HealthCheck:JVMMemoryPressure:Persistent

  • Instance:HealthCheck:JVMMemoryPressure:Recovered

JVMMemory.HeapMemoryHigh:堆内存使用率过高

警告

堆内存使用率过高,可能触发FullGC。

JVMMemory.HeapMemoryCritical:堆内存接近上限

严重

堆内存接近上限,极有可能OOM。

JVMMemory.GCRateTooHigh:Old GC频繁

警告

Old GC过于频繁,影响性能

  • HealthCheck.CPULoadHigh

  • CPU高负载的资源异常事件

  • Instance:HealthCheck:CPULoadHigh:Occurred

  • Instance:HealthCheck:CPULoadHigh:Persistent

  • Instance:HealthCheck:CPULoadHigh:Recovered

CPU.PersistUsageHigh:CPU持续高负载

警告

CPU持续高负载,系统响应变慢

CPU.PersistUsageCritical:CPU持续高负载

严重

CPU持续高负载,系统响应变慢

  • HealthCheck.DiskUsageHigh

  • 因磁盘使用率高的资源异常事件

  • Instance:HealthCheck:DiskUsageHigh:Occurred

  • Instance:HealthCheck:DiskUsageHigh:Persistent

  • Instance:HealthCheck:DiskUsageHigh:Recovered

Disk.UsageHigh:磁盘使用率告警

警告

磁盘空间不足,新的分片将无法创建,需要清理或扩容

Disk.UsageCritical:磁盘使用率严重

严重

磁盘接近ES自动只读保护阈值(95%),影响数据正常写入,需紧急处理

Disk.IndexReadOnly:索引进入只读状态

严重

索引被ES自动设置为只读(通常因磁盘满),无法写入

  • HealthCheck.DiskIOBottleneck

  • 因磁盘IO瓶颈的资源异常事件

  • Instance:HealthCheck:DiskIOBottleneck:Occurred

  • Instance:HealthCheck:DiskIOBottleneck:Persistent

  • Instance:HealthCheck:DiskIOBottleneck:Recovered

Disk.IOUtilizationHigh:磁盘IO使用率较高

严重

磁盘IO使用率较高,读写延迟增加,建议您扩磁盘或使用更高性能的磁盘类型

  • HealthCheck.ThreadPoolSaturation

  • 因线程池饱和的性能瓶颈事件

  • Instance:HealthCheck:ThreadPoolSaturation:Occurred

  • Instance:HealthCheck:ThreadPoolSaturation:Persistent

  • Instance:HealthCheck:ThreadPoolSaturation:Recovered

ThreadPool.SearchQueueHigh:查询线程池队列堆积

警告

查询线程池队列堆积,查询响应变慢

ThreadPool.SearchRejected:查询请求被拒绝

严重

查询请求被拒绝,用户查询失败

ThreadPool.WriteQueueHigh:写入线程池队列堆积

警告

写入线程池队列堆积,写入响应变慢

ThreadPool.WriteRejected:索引请求被拒绝

严重

写入请求被拒绝,数据写入失败

集群变更事件

  • UserOperator.InstanceSpecModify

  • 因实例规格变更的集群变更事件

  • Instance:UserOperator.InstanceSpecModify:Executig:因实例规格变更的集群变更执行中事件

  • Instance:UserOperator.InstanceSpecModify:Executed:因实例规格变更的集群变更执行完成事件

信息

  • 因实例规格变更导致实例重启。

  • 因实例节点变更实例节点重启。

  • UserOperator.InstanceUpdate

  • 因实例变更操作的集群变更事件

  • Instance:UserOperator.InstanceUpdate:Executing:因实例变更操作的集群变更执行中事件

  • Instance:UserOperator.InstanceUpdate:Executed:因实例变更操作的集群变更执行完成事件

信息

  • 因实例配置变更导致实例重启。

  • 因实例插件更新。

  • 因实例IK词库插件热更新。

  • UserOperator.InstanceCoreUpdate

  • 因实例内核升级的集群变更事件

  • Instance:UserOperator.InstanceCoreUpdate:Executig:因实例内核升级的集群变更执行中事件

  • Instance:UserOperator.InstanceCoreUpdate:Executed:因实例内核升级的集群变更执行完成事件

信息

因更新内核版本导致实例重启。