您可通过事件中心查看阿里云Elasticsearch(简称ES)对应的系统运维事件,以便及时发现业务异常,快速分析并定位问题。本文介绍ES的事件分类,以及如何查看并处理事件。
事件分类
ES事件按照起因及影响程度划分为如下类型。
更多事件明细,请参见附录:事件明细。
事件分类 | 事件定义 | 起因及影响 | 事件示例 |
系统变更 | 由阿里方发起、用户被动感知的系统变更事件。需用户知晓并关注集群是否受影响。 | 因基础设施变更或故障产生的系统变更事件,可能会导致集群访问受到影响。触发该类事件系统会发送通知,请及时查看并检查集群状态。 |
|
集群健康 | 系统结合集群的实际使用,定期巡检集群健康状况,并将诊断的非预期结果作为事件展示。 | 为确保云服务的可持续性,当系统检测到集群资源异常或存在风险时,会自动触发集群健康事件,以最大限度减少影响。 说明 运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。若自动执行失败,您可在事件中心页面手动触发节点重启。人工干预窗口期为 | 巡检发现ES节点离线。 |
集群变更 | 由用户发起,涉及集群变更的操作事件。变更过程可能会出现失败、阻塞等问题。 | 因实例规格变更或内核升级等原因导致集群发生变更事件,会触发相应节点重启。运维事件执行期间可能会导致集群出现短暂的抖动,但不会影响正常访问。 |
|
查看并处理事件
在事件中心页面,您可查看当前登录账号下所产生的事件信息,并按需处理相关事件。
进入事件中心。
在左侧导航栏单击事件中心。
查看事件信息。
在事件中心页面,您可根据条件筛选,查看所选事件类型中,目标实例在指定时间段内产生的所有事件信息,并根据事件详情执行相关处理操作。
事件信息及相关处理操作介绍如下。
事件信息
描述
实例ID
产生事件的阿里云ES实例ID。
节点ID
产生事件的实例节点ID。
事件等级
表示事件的严重程度,包括:
信息:记录系统正常运行时的状态或操作,常用于观察系统状态或进行调试。
警告:系统存在潜在问题或异常,但不影响当前运行,需持续关注。
严重:系统出现严重错误或故障,需立即处理,否则可能导致服务不可用或数据丢失。
事件状态
表示当前事件的执行状态,包括待执行、执行中、已执行、执行失败、执行中断、已取消、待确认执行、待继续变更等状态。其中:
待执行:事件等待按照系统设置时间或您预约的时间执行。
待确认执行:可根据事件详情判断是否立即执行当前事件,或进行事件的快照备份。
说明仅系统变更事件中,部分本地盘相关的事件支持该状态。
仅部署类事件(例如,ES集群升级,部署新版本到指定节点)支持快照备份。
待继续变更:当前变更任务已完成灰度变更,需确认已变更节点和集群的稳定性,并判断是否执行后续任务。例如,某变更操作需先在部分节点测试执行,确保变更在小范围内验证通过后,再在全量节点执行。
对于执行失败、执行中断状态的事件,请及时查找原因并处理,以免影响业务的正常运行。
事件说明
事件产生的原因及影响描述。
发生时间及结束时间
事件的开始执行时间及执行结束时间。
计划执行时间及执行结束时间
事件的计划开始执行时间和预计执行结束时间。
说明仅系统变更事件支持设置该信息。
来源
表示事件的来源,包括:
主动告知:ES产生事件后主动推送事件到事件中心。
事件订阅:通过订阅来监听指定事件,当事件发生时,系统会收到相应通知。
操作建议
您可根据操作建议处理相关事件。不同事件支持的处理操作存在差异,具体请以实际界面为准。
提交工单:如对相关事件存在疑问,可提交工单咨询。
重启:立即重启相关实例的指定节点。
预约重启:需指定重启时间,系统会按照预约时间重启相关实例的指定节点。节点重启时间需晚于预约时间
5
分钟,系统将于预约时间5
分钟之内为您重启节点。
说明当前实例或节点执行重启、强制重启或灰度重启操作时,系统会自动触发执行该实例或节点的重启类事件,但重新部署类事件(例如,ES版本升级)仍需提交工单联系技术支持人员处理。
附录:事件明细
事件类型 | 事件Code及中文名称 | 事件等级 | 云监控事件名称 | 事件说明及影响 |
系统变更事件 |
| 严重 |
| 因基础设施故障,本地盘无法正常使用。 |
| 严重 |
| 因基础设施故障,云盘性能受到影响。 | |
| 严重 |
| 因基础设施存在潜在故障风险,可能导致实例停止。 | |
| 严重 |
|
| |
| 警告 |
|
| |
集群健康事件 |
| 严重 |
| 因集群状态异常实例重启。 |
集群变更事件 |
| 信息 |
|
|
| 信息 |
|
| |
| 信息 |
| 因更新内核版本实例重启。 |