郭雷 阿里云智能GTS-SRE团队 技术服务经理

曾就职500强与民航系统内,多年数据中心、云计算、大数据运维工作经验,擅长灵活运用多种手段解决复杂场景问题。现就职于阿里云智能GTS-SRE团队,负责中国邮政、医保局、国家气象局、电力等项目。

简介

封神榜是SRE团队提供的从业务、产品、安全、故障四个维度对项目进行全方位监控的运维服务工具,可实现为不同关注点的客户提供问题、故障、性能、容量、优化建议等运维内容推送。帮助现场第一时间发现问题与故障并量化,提高复杂问题定位与处理的效率,补全云平台监控视角与部分运维能力的缺失,可以自助报告的方式使客户对云平台运行情况有全面的了解。封神榜定义了现场负责不同工作的机器人,作为现场服务的智能助手,通过SRE方法提升并标准化运维服务底线,提供更优质的智能主动服务,帮助客户保障业务稳定性,实现业务价值。

功能定位

稳定性是基础:被动响应转变为主动监控,提前预知可能导致故障的问题,故障时快速排查定位解决。

增强运维服务:自动化的优化报告、运维报告、容量报告等方式,减少人工收集信息的工作,自动化为主。

补全监控短板:提供用户视角监控,弥补客户更关注的业务多维度视角内容,自动推动关键指标数据,全方位地为项目稳定运行保驾护航。

四大视角服务目标

  • 业务视角

    为客户提供性能、容量、异常等事件级别的预警、报警,帮助客户自发现应用问题,进行优化。

  • 云平台视角

    通过预警、报警、播报的模式,提高云平台监控的全面性、时效性、易用性。

  • 客户视角

    定期推送实例的容量报告、性能报告、优化报告、云平台运行日报周报等。

    通过主动性运维,帮助客户进行优化,通过服务的方式输出运维效果。

  • 故障视角

    对故障SLA量化,定义、监控、告警,第一时间发现云平台与业务故障。

图1:封神榜运维阵型

应用实践

  • MQ实例监控

    场景:在某项目中,客户需要获取MQ最新的消费情况,并对MQ集群的空间大小进行监控。

    方案:使用封神榜建立定制化采集能力,通过封神榜client采集MQ监控信息,封神榜server端汇聚告警信息推送钉钉告警。

    图2:MQ实例监控效果展示
  • 安全事件告警

    场景:专有云项目中云盾告警较多,需要盯屏查看,容易忽略告警信息。

    方案:由封神榜client实时获取云盾告警数据,出现告警立即发送到告警群。

    图3:安全事件告警效果展示

结语

封神榜相关功能,仍在不断优化中,我们将以提供优质运维服务为目标,稳定运行为基础,为客户提供更多服务,敬请期待!