黄家亮 阿里云智能GTS-SRE团队 资深技术支持工程师

7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。

SRE技术保障平台-盯屏中心(TAC - TAM Alarm Center)是阿里混合云现场运维对监控报警解决方案的最佳实践,为混合云客户提供灵活的、多样化的监控报警解决方案,以此提升混合云平台和产品的故障发现率,保障客户系统的稳定运行。TAC功能丰富、多样且灵活,能够覆盖多种应用场景,满足多样的监控及告警需求,本文选择部分项目的最佳实践和应用进行展示。

基本功能

  • 告警接入图1

    产品团队:研发团队提供监控能力

    封神榜:封装产品监控,并调用TAC的API网关接口上报告警

    TAC:提供API网关服务,并进行告警的展示和通知

  • 告警通知

    场景:某项目现场需要将平台侧P0级告警通知给相关人员以及时获取监控告警信息。

    方案:使用TAC本身告警汇聚能力汇聚云内多渠道告警,并使用TAC集成的告警通知服务实现告警通知。

    图2:钉钉告警效果展示图3:短信告警效果展示
  • 站点监控

    场景:某客户现场有应用监控需求,希望TAC可以定时监控该项目的门户网站和运营管理平台。

    方案:使用TAC集成的站点监控HTTPCODE和钉钉方式实现监控告警通知。

    图4:站点监控效果展示

扩展解决方案

  • Maxcomput和Datawokrs资源告警

    某项目使用Maxcomput和Dataworks两个产品承载主要的业务应用,需要对Maxcomput的资源使用情况和Dataworks的槽位使用情况进行监控并告警,以在第一时间发现问题,并通知运维人员处理。

    图5:Maxcomput和Datawokrs资源告警效果展示
  • 告警推送第三方

    某项目需要将云平台的告警通过钉钉发送给现场驻场或相关负责人,减少盯屏的人力成本,从而减少问题处理的时间,最终减少对业务的影响时间。

    图6:告警推送第三方方案
    数据采集:使用TAC实现告警采集
    • 平台核心实例资源使用率告警管理、P0/P1告警统一管理
    • 应用业务可用性监控告警

    数据推送:TAC调用api网关接口,将告警数据写入消息中心。

    数据接收:通过消息中心服务将告警数据推送到钉钉机器人,钉钉群接收消息中心推送的告警数据。

    图7:告警通知效果展示