事件中心

通过阿里云Elasticsearch的事件中心功能,您可以查看对应的系统运维事件,事件主要分为3种类型:系统变更、集群健康、集群变更。

注意事项

  • 为确保云服务的可持续性,系统会在检测到集群资源异常或风险时自动触发集群健康事件,以最大限度减少影响。运维事件执行期间可能会导致短暂的集群抖动,但不影响正常访问。若自动执行失败,用户可在事件中心页面手动触发节点重启,人工干预窗口期为2448小时,具体执行时间可在控制台。

  • 当因实例规格变更或内核升级等原因导致集群发生变更事件时,会触发相应节点的重启操作。在运维事件执行过程中,虽然可能会引起集群短时间的抖动,但正常的集群访问不会受影响。

  • 因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响,系统会发送通知,请及时查看并检查集群状态。

事件分类

事件需要划分如下3个类型,按照分类展示。

事件分类

定义

举例参考

集群健康

结合用户的集群实际使用情况,定期巡检健康情况,并将诊断的非预期结果作为事件展示。

  • 巡检发现ES节点离线

系统变更

由阿里方发起、用户被动感知的系统变更,需要用户知晓并关注集群是否受影响。

  • kibana功能升级,短时间停用

  • AMD机型升级最新一代

集群变更

由用户发起,涉及集群变更的操作事件,并有可能在变更过程出现失败、阻塞等问题。

  • 缩容

  • 重启节点

说明

上述三类事件消息在事件中心上会显示。如需短信或者邮箱提醒,请前往云监控配置条件,详情请参见管理事件订阅(推荐)

功能中心

  1. 登录阿里云Elasticsearch控制台

  2. 您可以通过以下两种方式进入事件中心页面:

    • 在概览页面的事件中心区域,单击查看详情

    • 在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,单击事件中心

  3. 通过事件中心,您可以查看事件的相关信息或根据事件状态进行相应操作,具体说明如下。

    事件信息

    说明

    资源ID

    阿里云Elasticsearch实例ID。

    事件等级

    事件的严重程度,包含:信息警告严重

    事件状态

    事件的执行状态,包含:

    • 计划中

    • 执行中

    • 已执行

    • 执行失败

    • 执行中断

    • 已取消

    事件说明

    描述事件说明和影响。

    发生时间

    事件发生的时间。

    结束时间

    事件结束的时间。

    计划执行时间

    计划开始执行时间和预计执行结束时间。

    来源

    来源包括:主动告知事件订阅

    操作

    如有疑问请提工单。

事件明细

事件类型

事件Code

事件等级

云监控事件名称

事件说明和影响

系统变更事件

SystemUpdate.InfraDiskError

中文名:因基础设施磁盘故障的系统变更事件

严重

  • Instance:SystemUpdate.InfraDiskError:Executing:因基础设施磁盘故障的系统变更执行中事件

  • Instance:SystemUpdate.InfraDiskError:Executed:因基础设施磁盘故障的系统变更执行完成事件

  • 因基础设施故障,本地盘无法正常使用

SystemUpdate.InfraDiskStalled

中文名:因基础设施磁盘性能问题的系统变更事件

严重

  • Instance:SystemUpdate.InfraDiskstalled:Executing:因基础设施磁盘性能问题的系统变更执行中事件

  • Instance:SystemUpdate.InfraDiskstalled:Executed:因基础设施磁盘性能问题的系统变更执行完成事件

  • 因基础设施故障,云盘性能受到影响

SystemUpdate.InfraFailureStop

中文名:因基础设施故障停止的系统变更事件

严重

  • Instance:SystemUpdate.InfraFailureStop:Scheduled:因基础设施故障停止的系统变更执行计划事件

  • Instance:SystemUpdate.InfraFailureStop:Executing:因基础设施故障停止的系统变更执行中事件

  • Instance:SystemUpdate.InfraFailureStop:Executed:因基础设施故障停止的系统变更执行完成事件

  • Instance:SystemUpdate.InfraFailureStop:Failed:因基础设施故障停止的系统变更执行失败事件

  • 因基础设施存在潜在故障风险,可能导致实例停止

SystemUpdate.InfraMigrate

中文名:因基础设施变更升级的系统变更事件

严重

  • Instance:SystemUpdate.InfraMigrate:Scheduled:因基础设施变更升级的系统变更执行计划事件

  • Instance:SystemUpdate.InfraMigrate:Executing:因基础设施变更升级的系统变更执行中事件

  • Instance:SystemUpdate.InfraMigrate:Executed:因基础设施变更升级的系统变更执行完成事件

  • Instance:SystemUpdate.InfraMigrate:Failed:因基础设施变更升级的系统变更执行失败事件

  • 因基础设施维护实例节点重启

  • 因基础设施维护实例节点重新部署

SystemUpdate.SoftwareRepair

中文名:因软件更新的系统变更事件

警告

  • Instance:SystemUpdate.SoftwareRepair:Scheduled:因软件更新的系统变更事件执行计划事件

  • Instance:SystemUpdate.SoftwareRepair:Executing:因软件更新的系统变更执行中事件

  • Instance:SystemUpdate.SoftwareRepair:Executed:因软件更新的系统变更执行完成事件

  • 因集群管控系统升级重启

集群健康事件

HealthCheck.ClusterAbnormal

中文名:因集群状态异常的集群健康事件

严重

  • Instance:HealthCheck.ClusterAbnormal:Executed:因集群状态异常的集群健康执行完成事件

  • Instance:HealthCheck.ClusterAbnormal:Failed:因集群状态异常的集群健康执行失败事件

  • 因集群状态异常实例重启

集群变更事件

UserOperator.InstanceSpecModify

中文名:因实例规格变更的集群变更事件

信息

  • Instance:UserOperator.InstanceSpecModify:Executig:因实例规格变更的集群变更执行中事件

  • Instance:UserOperator.InstanceSpecModify:Executed:因实例规格变更的集群变更执行完成事件

  • 因实例规格变更实例重启

  • 因实例节点变更实例节点重启

UserOperator.InstanceUpdate

中文名:因实例变更操作的集群变更事件

信息

  • Instance:UserOperator.InstanceUpdate:Executing:因实例变更操作的集群变更执行中事件

  • Instance:UserOperator.InstanceUpdate:Executed:因实例变更操作的集群变更执行完成事件

  • 因实例配置变更实例重启

  • 因实例插件更新

  • 因实例IK词库插件热更新

UserOperator.InstanceCoreUpdate

中文名:因实例内核升级的集群变更事件

信息

  • Instance:UserOperator.InstanceCoreUpdate:Executig:因实例内核升级的集群变更执行中事件

  • Instance:UserOperator.InstanceCoreUpdate:Executed:因实例内核升级的集群变更执行完成事件

  • 因更新内核版本实例重启