文档

混合云监控实战

更新时间:
一键部署

本实践通过对平台侧和租户侧的产品进行监控平台的配置和展示,梳理了混合云平台的监控告警流程,这样在混合云使用、运维过程中,可以更好的了解云平台的健康状况。

前提条件

本实践适用于专有云企业版3.16版本。

使用场景

混合云监控可分为云平台本身和租户侧资源两个维度。其中租户侧可以分为资源实例本身和业务应用部分。

当前专有云提供云监控CMS,用于资源实例本身的监控,可监控包括云服务器ECS,云数据库RDS,对象存储OSS等多种产品。另外云平台也提供监控服务Prometheus,应用实时监控服务ARMS等产品,来方便进行业务应用的监控。

对于云平台本身组件、即底座的监控,云平台提供tianjimon组件,可针对物理设备,OS层等IaaS指标,底座管控软件等PaaS指标进行统一监控。

方案概述

1、本文通过对云监控CMS,tianjimon等组件进行实际的操作演示,可以使大家更好的了解混合云的监控体系,便于在后续使用、运维过程中对云平台的稳定性有更清晰的理解。

2、租户侧,会介绍云监控CMS,监控服务Prometheus等产品,通过监控项的配置实现业务侧的监控运维。

3、云平台侧,会介绍tianjimon是如何监控云底座各个组件的,如何通过底座的监控信息查看当前云平台的运行情况。

实践步骤

  1. 租户资源监控。

    1. 基础资源层。

      云监控CMS是一项针对阿里云资源进行监控的服务,为云上用户提供开箱即用的企业级开放型一站式监控解决方案。云监控用于监控各云服务资源的监控指标,探测云服务ECS的可用性,并针对指定监控指标设置报警。使您全面了解混合云上资源的使用情况和业务运行状况,并及时对故障资源进行处理,保证业务正常运行。

      云监控CMS支持主机云服务器ECS监控,通过在主机上安装插件,为您的主机提供监控功能。目前云监控仅支持为Linux和Windows操作系统的主机安装插件。对云主机的监控,除了基础的CPU,内存等,还支持针对进程的监控。123

      云监控CMS还支持网络负载均衡的监控,可针对每个负载均衡实例(监听端口)进行分别监控。可在最上方选择具体的监听实例。4

      云监控CMS还支持丰富的告警配置,可针对各种监控指标创建对应的告警规则。

      通过设置告警时间,使告警仅在指定时间生效,对不同时间段设置不同阈值的告警规则。可对多个实例进行统一的告警规则设置,以达到简化步骤,告警聚合的目的。1

      如果配置了ANS告警网关服务,还可以将告警发送到邮件、钉钉等服务中,方便的通知到运维人员。6

    2. 业务资源层。

      对于业务监控,云平台提供了应用实时监控服务ARMS(Application Real-Time Monitoring Service),这是一款应用性能管理(APM)产品,包含应用监控、监控服务Prometheus和前端监控三大子产品,涵盖分布式应用、容器环境等领域的性能管理,可实现全栈式性能监控和端到端全链路追踪诊断。

      1. 单击接入prometheus监控可一键接入容器集群,内置了丰富的监控模板。7

      2. 可直接打开Grafana的监控界面,查看监控信息。8

      3. 接入监控实例后,单击设置,可进行监控服务Prometheus配置。1

      4. 通过应用实时监控服务ARMS,单击左侧导航栏链路追踪可以进行应用、链路跟踪监控。对于分布式架构,可监控Java应用,查看应用拓扑、接口调用、异常事务、慢事务等信息,全面的了解业务的运行情况。111

  2. 云平台底座监控。

    云平台底座监控由tianjimon统一支持,系统模型如下。模型

    指标采集包括metric,Log,DB等多种渠道,并内置硬件、系统,产品管控等丰富的监控告警指标。

    1. 产品服务监控。

      1. 打开天基平台,可以查看各个服务产品的状态信息。产品正常则显示已达终态0

      2. 当产品未达终态,可单击产品名称后面的角色,查看具体报错的服务名称。1

      3. 单击具体报错的服务名称可查看错误详情,根据详细的错误信息登录Terminal进行处理。14

    2. 硬件监控。

      • tianjimon平台支持服务器硬件监控,比如资产信息数据,传感器信息,如CPU温度、风扇转速等,SmartLog信息,如各种Smart字段监控等,可在tianji中搜索hardware_monitor_new,查看硬件告警信息。1

      • tianjimon会部署agent到服务器上,每个产品集群的tianjiservice中都会配置收集硬件监控数据,并转化为metric指标。同时针对异常指标metric进行报警配置1617

      • tianjimon平台支持OS等IaaS监控内容,通过tianjiagent或者系统日志进行指标收集和展示。119

      • 单击上图中的日志监控可以查看tianjimon收集的监控日志,方便检查当前的监控链路是否正常。tianjimon默认根据监控的采样频率配置对应的日志存储时长,并定期清理过期日志内容,避免发生日志存储空间不足的问题从而影响监控信息展示。2021

      • tianjimon还提供了整体的监控大盘,可统一查看当前监控系统的运行状态。2223

      • 以及可查看每个产品,当前生效的监控模板、监控项。24

      • 为了避免由于tianjimon自身故障,而导致异常无法被检测,当前tianjimon还支持自身的监控告警。可在Apsara Uni-manager运维控制台搜索selfmonitor查看自身告警。1

    3. 告警配置。

      • tianjimon会根据监控指标的结果配置告警规则,根据对云平台造成的影响不同,将告警设置为不同级别,并统一通过Apsara Uni-manager运维控制台进行展示通知。26

      • 在具体的告警信息后面,还可以对告警条目进行分析处理,以便更快的定位、解决云平台故障。27

      • 如果云平台部署了ans告警网关,还可以在Apsara Uni-manager运维控制台进行告警通知设置。28

      • 对于预期内的告警行为,比如主动维修造成的告警,可以通过告警屏蔽进行临时处理。29

  • 本页导读
文档反馈