通过阿里云Elasticsearch的事件中心功能,您可以查看对应的系统运维事件,事件主要分为3种类型:系统变更、集群健康、集群变更。
注意事项
为确保云服务的可持续性,系统会在检测到集群资源异常或风险时自动触发集群健康事件,以最大限度减少影响。运维事件执行期间可能会导致短暂的集群抖动,但不影响正常访问。若自动执行失败,用户可在事件中心页面手动触发节点重启,人工干预窗口期为24至48小时,具体执行时间可在控制台。
当因实例规格变更或内核升级等原因导致集群发生变更事件时,会触发相应节点的重启操作。在运维事件执行过程中,虽然可能会引起集群短时间的抖动,但正常的集群访问不会受影响。
因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响,系统会发送通知,请及时查看并检查集群状态。
事件分类
事件需要划分如下3个类型,按照分类展示。
事件分类 | 定义 | 举例参考 |
集群健康 | 结合用户的集群实际使用情况,定期巡检健康情况,并将诊断的非预期结果作为事件展示。 |
|
系统变更 | 由阿里方发起、用户被动感知的系统变更,需要用户知晓并关注集群是否受影响。 |
|
集群变更 | 由用户发起,涉及集群变更的操作事件,并有可能在变更过程出现失败、阻塞等问题。 |
|
上述三类事件消息在事件中心上会显示。如需短信或者邮箱提醒,请前往云监控配置条件,详情请参见管理事件订阅(推荐)。
功能中心
您可以通过以下两种方式进入事件中心页面:
在概览页面的事件中心区域,单击查看详情。
在左侧导航栏,单击高级监控报警。再在高级监控报警页面的左侧导航栏,单击事件中心。
通过事件中心,您可以查看事件的相关信息或根据事件状态进行相应操作,具体说明如下。
事件信息
说明
资源ID
阿里云Elasticsearch实例ID。
事件等级
事件的严重程度,包含:信息、警告、严重。
事件状态
事件的执行状态,包含:
计划中
执行中
已执行
执行失败
执行中断
已取消
事件说明
描述事件说明和影响。
发生时间
事件发生的时间。
结束时间
事件结束的时间。
计划执行时间
计划开始执行时间和预计执行结束时间。
来源
来源包括:主动告知、事件订阅。
操作
如有疑问请提工单。
事件明细
事件类型 | 事件Code | 事件等级 | 云监控事件名称 | 事件说明和影响 |
系统变更事件 | SystemUpdate.InfraDiskError 中文名:因基础设施磁盘故障的系统变更事件 | 严重 |
|
|
SystemUpdate.InfraDiskStalled 中文名:因基础设施磁盘性能问题的系统变更事件 | 严重 |
|
| |
SystemUpdate.InfraFailureStop 中文名:因基础设施故障停止的系统变更事件 | 严重 |
|
| |
SystemUpdate.InfraMigrate 中文名:因基础设施变更升级的系统变更事件 | 严重 |
|
| |
SystemUpdate.SoftwareRepair 中文名:因软件更新的系统变更事件 | 警告 |
|
| |
集群健康事件 | HealthCheck.ClusterAbnormal 中文名:因集群状态异常的集群健康事件 | 严重 |
|
|
集群变更事件 | UserOperator.InstanceSpecModify 中文名:因实例规格变更的集群变更事件 | 信息 |
|
|
UserOperator.InstanceUpdate 中文名:因实例变更操作的集群变更事件 | 信息 |
|
| |
UserOperator.InstanceCoreUpdate 中文名:因实例内核升级的集群变更事件 | 信息 |
|
|