产品简介

本文档简单介绍了运维事件中心的产品简介、产品架构、功能概况。

什么是运维事件中心

运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障恢复时长、更连续的业务运营体验。

产品架构运维事件中心产品架构图

功能概况

您可以在运维事件中心获得以下功能的入口:

模块

能力概述

功能描述

服务

管理企业的各个服务(Service)

服务是企业业务运营下最小管理单元,在运维事件中心建立好每一个需要运营的服务有助于全方位的保障业务的良好稳定性运行。

  1. 配置流转规则&通知策略时需要关联对应服务;

  2. 管理和跨部门合作时可以一目了然查看服务下配置的策略(如:流转规则、通知订阅);

  3. 查看当前服务产生了哪些报警、事件、故障;

  4. 支持从服务的视角拉通查看业务整体的运行状况。

集成配置

简单、方便的实现上游监控系统的快速集成

支持简单、快速集成现有常用的监控系统。

  1. 接收到监控源发送的报警记录会标为“已接收”报警;

  2. 监控源配置的报警规则与业务不符时,可以临时禁用监控源来避免无效的报警&事件;

  3. 已集成的密钥丢失后可以通过一键更新进行替换,以保障数据安全。

流转规则

统一的策略管理中心

将所有接收的集成原始告警进行抑制、降噪、去重、路由分派操作,并设置事件流转的默认分派通知规则。

  1. 支持多监控源纵向抑制、横向收敛,多维度降噪,避免无效告警风暴,让告警更精准;

  2. 统一收口所有集成的告警,支持每个规则配置事件的默认分配对象&通知策略。

通知订阅

统一的通知订阅管理

合理的配置通知渠道,有利于聚焦核心通知,提升问题处理效率,避免不必要的打扰。

  1. 满足服务或流转规则被不同通知对象的自定义订阅需求;

  2. 满足不同的通知对象可以监听不同订阅范围通知的需求;

  3. 满足「全部服务-服务-流转规则」订阅范围的通知订阅需求;

  4. 满足不同的人员对订阅通知的不同时效要求;

  5. 不同的紧急程度或影响程度的通知,支持自定义配置。

事件中心

统一的报警、事件、故障任务流转处理

事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障。

  1. 管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;

  2. 管理系统历史所有(系统自动触发和手动新增的)事件任务,事件任务及时分派给所属人员,支持转交、响应、处理完结、升级故障等操作;

  3. 管理系统历史所有升级的故障(人为手动升级或系统自动触发);

  4. 支持故障全生命周期管理,包括通知、处理、Timeline记录、改进、预防;报警、事件、故障全链路数据在线化管理,实现业务运营的可视化、在线化、智能化管理。

升级策略

针对所有事件,按照不同优先级、影响程度,制定系列不同时间、通知策略的规则合集。

通过灵活自定义的升级通知策略,帮助用户及时关注并解决关键事件。

  1. 配置灵活:升级策略支持同时关联多个服务,支持按照事件优先级/影响程度配置升级条件,事件未响应、未完结可作为独立的升级类型单独配置升级通知规则,支持按照不同升级时长进行多次升级。

  2. 多级通知:一个升级条件最多可支持10级升级,通过配置可确保高优先级/高影响程度的事件能得到及时的关注及处理。

  3. 通知渠道自定义:每个升级规则支持单独配置不同的通知渠道,支持根据升级通知时间、升级条件为不同级别的升级对象配置不同的通知渠道;满足不同场景下自定义的通知需求。

云钉协同

基于钉钉打通多端、多团队的协同,加速运维事件处理。

基于阿里云“云钉一体”的战略目标,将阿里云运维事件中心和钉钉进行深度集成、打通,实现对事件和故障的关键操作的多端拓展,并且结合钉应用创建的场景群,帮助用户在企业环境内高效、实时的解决运维事件和故障。

  1. 账号体系打通:开通钉钉应用(维蜜)后,将打通阿里云RAM账号体系和钉钉账号体系,用户无需在阿里云重复录入钉钉已有的账号体系。如企业内大量研发要参与运维事件的处理,以往均需要为每个研发添加RAM账号,操作繁琐且维护成本高,基于钉钉应用(维蜜)打通后,一键授权后系统即可自动打通两端的账号体系。

  2. 多端协同:基于账号体系打通后,用户可基于阿里云控制台(PC端)、钉钉群(钉端)、钉钉应用(钉端)进行事件相关的查看及操作,极大地降低了运维、研发的协同成本,研发可无需登录阿里云控制台,在钉端进行相关操作即可。

统计分析

帮助企业了解整体生产环境下事件的运行趋势。

可以查看全局、服务组、个人事件的统计数据,包括各等级的事件数量、总数量、总(MTTA、MTTR)、整体完结率等核心指标。

服务维度的统计分析,从业务的视角统计服务下所有事件、告警的处理情况,可通过不同服务、不同指标的对比了解运维对业务的影响。

服务组维度的统计分析,是服务组下每个成员所处理事件的数据总和;企业生产环境下的不同应用服务通常由多个或1个服务组(团队)负责,可以通过对比服务组之间的事件趋势和处理情况进一步了解不同服务的运行情况。

个人维度的统计分析,可以了解每个人的事件处理量、处理效率; 通过对比人员之间的事件处理量和处理效率,实现更合理的运维资源分配。

欢迎加入运维事件中心用户交流钉群,点击加入钉群或钉钉搜索群号:35645045。我们会在钉群里定期进行产品分享、交流、新功能发布等。