云上运维事件统一管理
方案概述
一般企业在云上都会有多套监控系统,比如云监控、ARMS、SLS等,如何把这多套监控系统的报警统一管理,对海量的报警做到有效降噪,都是企业运维人员通常遇到的痛点。本方案介绍了一款公有云产品事件中心能够比较好的解决运维人员遇到的问题。
方案优势
多监控系统集成
目前事件中心已支持14个常见监控系统集成,简单配置即可快速完成对接。
丰富的报警降噪能力
支持横向抑制、纵向收敛,全面压制报警风暴,不再遗漏核心报警。
大幅降低事务性操作
完善的事件分派、升级、通知机制,避免重复事务性操作,提升运维效率。
客户场景
一站式运维事件管理
场景描述
满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。
需求描述
多源监控集成:支持多个常见监控系统集成,简单配置即可完成集成对接。
报警统一处理:所有报警进行集中降噪处理,抑制收敛,避免报警风暴。
事件闭环管理:对报警生成事件,进行全生命周期管理,不遗漏重大事件。
适用客户
互联网客户为主,技术架构有一定复杂度,多监控系统。
使用了阿里云多款产品,对体系化的事件管理有需求。
体系化故障闭环管理
场景描述
基于阿里多年base ITIL实践经验沉淀的故障管理体系,满足企业重大故障的流程化、在线化管理需求,持续提升业务连续性。
需求描述
故障应急:支持故障全局应急通告,电话、短信、邮件、IM多种通知渠道,加快信息流转。
故障跟踪:支持对故障进展、故障影响面、舆情反馈、Timeline进行在线化管理、协同,提升故障处理效率。
故障复盘:基于最佳实践经验,沉淀了对故障进行深度复盘的结构化要求,形成了线上检查点,以产品的方式承载流程落地。
故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进。
适用客户
重视线上稳定性,对故障带来的负面影响较大,需持续的进行业务连续性运营及管理的企业。
方案架构
本方案主要介绍如何使用事件中心帮助企业实现云上统一事件、故障管理。
架构图
事件中心产品架构如下:
产品亮点:
多监控系统集成
已支持14款常见监控系统集成,简单配置即可快速完成对接。
丰富的报警降噪能力
支持横向抑制、纵向收敛、全面压制报警风景,不再遗漏核心报警。
大幅降低事务性操作
完善的事件分派、升级、通知机制、避免重复性操作,提升运维效率。
故障管理
帮助企业在云上构建故障管理体系,持续提升业务连续性。
产品费用及名词
产品费用
产品名称 | 产品说明 | 产品费用 |
事件中心 | 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障时长、更连续的业务体验。 | 公测期间免费,详情参见产品定价。 |
安全性
RAM用户权限
需要在RAM控制台完成子账号创建添加授权,运维事件中心包含以下3种权限初始权限。
「AliyunGEMPFullAccess」- 管理运维事件中心的权限(除人员新增、群协同组织绑定):适用于运维事件中心的管理人员,如运维角色人员;
「AliyunGEMPReadOnlyAccess」- 只读管理运维事件中心的权限:适用于事件、故障处理流转等人员,如运营、测试、产品、管理等角色人员;
「AliyunGEMPCoordinatorAccess」-具备运维事件中心的事件和故障协同功能权限,拥有其它模块的只读权限,如开发角色人员;
被赋予以上3种权限的人员可以直接访问运维事件中心,填写个人姓名、手机号、邮箱等联系方式后即可正常使用;也可以统一由RAM主账号统一添加人员信息。
系统集成权限
事件中心跟各个监控平台数据集成,需要配置集成密钥。已集成的监控源若集成密钥被盗用,可以通过一键更新密钥替换原有密钥保障数据安全。
注意事项
功能使用限制
具体请查看产品使用限制。
实施步骤
实施准备
操作步骤
事件中心配置过程
步骤1:新增服务
在导航栏左侧选择服务中心>服务管理进入服务管理页面;
在服务管理页面点击新增服务按钮出现新增服务弹窗,在弹窗内输入服务名称和服务描述,点击确定。
步骤2:配置人员信息
RAM主账号个人信息
RAM主账号在导航栏左侧选择人员管理>人员列表进入产品页面;
点击RAM主账号对应的编辑按钮出现编辑人员弹窗,选择人员的RAM账号登录名,修改姓名、人员手机号、企业邮箱,点击确认完成设置。
RAM子账号填写个人信息
子账号完成创建及授权后,进入运维事件中心完善个人信息。
步骤3:新增服务组
在导航栏左侧选择人员管理>服务组管理进入服务组管理页面;
在服务组管理页面点击新增服务组按钮出现新增服务组弹窗,在弹窗内输入服务组名称、选择服务组成员、选择Webhook通知类型、输入需要通知的群Webhook地址、输入服务组描述,点击确认。
步骤4、配置集成
前提说明:在需要接入集成的监控源中已配置好相关服务的监控项。
在左侧导航栏选择集成中心>集成配置;
根据业务需要选择要接入的集成,点击接入集成按钮;
点击之后进入对应集成详情页面,根据集成详情页面步骤完成集成接入;接入详情可以查看文档中集成接入文档说明;
集成接入成功后可以前往如何配置流转规则中配置报警或事件流转规则。
步骤5、配置流转规则
在流转规则页面点击新增规则进入新增规则页面;
在新增规则页面,设置规则名称、规则条件(规则条件需要选择监控源、key)、关联服务;选择触发事件的类型,选择触发事件需配置事件触发规则、优先级、影响程度和默认分派对象,选择仅触发报警需要配置报警触发规则、优先级和默认通知对象。配置完成之后点击提交。
步骤6:配置通知订阅
在左侧导航栏策略中心>通知订阅页面配置通知订阅;
在通知订阅页面点击新增通知订阅进入新增通知订阅的配置页面;
在新增通知订阅的配置页面,设置订阅名称、订阅范围、通知对象、订阅时长;配置通知策略,选择通知类型(可通过点击新增通知类型添加多个)、优先级和影响程度、通知渠道。
订阅规则帮助支持不同优先级、影响程度的报警、事件、故障设置不同的通知渠道。
同一个通知订阅同时支持报警、事件、故障的订阅。
步骤7:查看报警信息或处理事件
在左侧导航栏事件中心>报警页面根据相应的流转规则触发对应的报警;
在左侧导航栏事件中心>事件页面根据相应的流转规则触发对应的事件;
转交:根据流转规则配置的分派对象确定事件的当前处理人,在事件详情页面可以把事件转交给其他人处理;
响应:在事件列表操作列或事件详情页面响应该事件;
变更优先级:在事件详情页面可以变更优先级;
升级故障:在事件详情页面可以将对业务或系统造成重大影响的事件升级为故障。
故障排除
为什么用户没收到通知?
建议检查下策略中心>通知订阅里是否有对应级别、对应渠道的订阅配置,以及是否生效。
建议检查下人员管理>人员列表里个人联系方式是否正确。
如电话通知,请用户检查下是否将对应来电号码加入了黑名单。具体电话列表查询。
为什么钉群没有收到对应通知?
建议检查服务组是否配置了对应钉群的webhook,并且为开启状态。
建议检查钉钉群机器人是否有相关安全限制。以下为安全设置参考。