文档

事件管理

更新时间:

事件是指任何可能中断或降低服务质量(或具有此类威胁)的计划外事件。例如业务出现风险、服务器运行缓慢、接口响应延时过高等一系列问题均属于事件。它可能影响工作效率、降低客户体验,即使未造成严重后果,也应该归类为事件。

事件来源一般分为:

  • 人工上报

  • 系统发现

事件管理是针对事件进行识别、记录、分类、分派、分析、解决和完结的过程。事件管理的目标是及时、准确的接受时间,并进行服务回复。尽可能的减少业务影响。通过事件管理可以实现快速定位问题、提高解决效率、减少重复问题的发生频率、增强业务连续性、提高用户体验、规范企业工作流程。

image.png

事件管理包括以下几点:

  • 事件的识别与记录:通过监控工具、日志分析、人工上报等方式发现事件,并将其记录。

  • 事件分级与分类:根据事件的相关信息,可对事件进行分级、分类,便于进一步处理。

  • 分级:根据影响程度可分为:P1、P2、P3、P4。

  • 分类:根据发生原因可分为:监控误报、业务波动、代码逻辑等问题。

  • 事件处理人分派:可根据事件的影响面/服务/应用等相关信息,将事件分派至对应的人/群组。便于事件的快速响应与处理,同时提高内部信息的同步效率。

  • 事件解决与分析:事件处理人可查看报警详细信息,对事件进行初步判断与分析。并对事件进行响应与解决。在解决的同时需记录解决方式与判断条件等信息,便于后续发生同类事件的处理。

  • 事件完结:在处理完成相应事件时,需关闭此事件。事件记录将被留存,在后续发生同类问题时可根据同类事件进行查看,并快速处理此列问题。

通过事件管理,建立标准的事件操作流程的优势包括:

  • 快速解决事件。

  • 降低业务的损失与成本。

  • 持续改进与学习

运维事件中心是阿里云提供的云上事件管理服务。通过集成监控源告警数据,并按照规则条件分派预通知的,都可以被称之为事件。事件比报警优先级更高,将强调分派到具体责任人,并持续跟进解决、归档记录。

事件主要用于管理通过规则自动触发或人工手动新增的事件任务,运维事件中心的事件管理支持灵活的任务流转,关键事件优先响应、完结处理等操作以便提升关键任务的MTTA和MTTR;支持将影响恶化的事件一键升级为故障,实现事件全生命周期的在线化管理。

  • 集成告警数据:可集成多种告警源例如:ARMS、SLS、云监控、Prometheus、Dynatrace等数十种监控系统。同时支持自定义集成,可自动解析告警信息。

  • 事件分类与分派:首先维护服务、人员、服务组之间的关系。其次通过流转规则将系统内接受的告警信息按影响的服务/应用进行分类,可按告警信息字段设置触发事件规则,同时将自动按预先设置的流程将事件分派至对应的处理人或组。

  • 事件的处理与解决:事件处理人接受事件,并查看相应的告警详细信息,初步分析告警原因。在事件处理时,可查看、参考相似事件的处理方式,以便于快速解决。同时支持在处理事件时进行内容记录,便于后续的分析与参考。

  • 事件的完结与持续运营:当事件解决后,需完结事件。在完结时需对事件进行打标处理,填写事件触发原因、解决方案等信息。通过这些信息的汇聚,可在后期统一进行分析查看,协助后续类似事件发生的处理以及对系统架构的优化提供可靠依据。

  • 本页导读
文档反馈