应用场景

本文档描述产品的主要使用场景。

一站式运维事件管理

应用场景

应用场景

满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。

能够解决

  • 多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。

  • 报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。

  • 事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。

体系化故障闭环管理

应用场景架构图-故障管理-0721

应用场景

基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。

能够解决

  • 故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。

  • 故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。

  • 故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。

  • 故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进。

其他应用场景

  1. 降低管理难度:同时维护多套监控系统,操作成本高,降低管理难度。

  2. 规避报警风暴:单监控源的报警不能真实反应出业务运行的情况,频繁的报警触发反而加大运维的难度;多监控源头组合报警横向抑制无效报警,结合抑制规则纵向收敛抖动报警,提升报警的准确性。

  3. 报警事件分级管理:系统触发的报警、事件、故障无分级,不能第一时间区分任务的紧急和影响程度导致重要紧急的任务未及时处理,加大业务损失。

  4. 打破数据烟囱:同一个业务运营下所有层级的报警数据统一汇聚,不同监控源数据互联互通,真实反应业务的整体运行状况,帮助企业及时预判业务风险,应对业务挑战,预测业务机会。

阿里云首页 运维事件中心 相关技术圈