本文档旨在通过一个具体实例介绍如何对存储在日志服务中的数据进行数据统计、形成可视化监控图、设置报警。

准备工作

业务日志的统计监控与报警的原理如下图所示。

业务日志的统计监控与报警原理
  • 首先需要您将本地日志收集到日志服务(Log Service)中,如果您未使用过阿里云日志服务产品,可查看日志服务快速入门了解产品。
  • 需要确保主账号的AccessKey是激活状态。AccessKey保持激活状态后您才能授权云监控读取您的日志数据。激活方法如下:
    1. 登录阿里云控制台
    2. 将光标移至右上角您的用户名上,单击 AccessKey管理
    3. 在弹出的确认对话框中,单击继续使用AccessKey
    4. 安全信息管理页面, 确认AccessKey处于启用状态。AccessKey管理

实施步骤

在使用日志监控前,需要您确保收集到日志服务中的日志已经被切分为Key-Valve格式。参考常见日志格式的处理方法。

  1. 授权云监控只读权限
    1. 登录云监控控制台
    2. 在左侧导航栏,单击日志监控
    3. 日志监控页面,单击这里进行授权。初次使用日志监控功能时需要授权,后续不再需要授权。授权后云监控会获得读取您日志数据的权限,并且仅用于按照您配置的处理规则进行日志数据处理的用途。云监控授权
  2. 创建日志监控
    1. 日志监控页面,单击新建日志监控
    2. 新建日志监控页面,选择应用分组名称。
    3. 选择关联资源。

      选择您需要进行监控统计的日志服务资源。

      新建日志监控
    4. (可选)预览数据。

      如果您选择的日志服务中已经写入数据,可以在第二步分析日志的预览框中查看到原始的日志数据。

      查看日志数据

      预览数据功能需要您开启日志服务的索引功能。单击开启日志索引链接,根据页面提示开启索引功能。

      分析日志
    5. 设置分析日志。

      本步骤用于定义如何处理日志数据。不支持日志的字段名称为中文。

      • 监控项名称:定义一个监控指标的名称。支持数字、字母、下划线。
      • 单位:可以根据数据含义选择一个单位,会显示在监控图的Y轴上。
      • 统计方法:每分钟根据选定的统计方法对日志数据进行聚合处理。如果字段值是数值型,可以使用所有统计方法,否则只能使用计数countps两种聚合算法。
      • 日志筛选:对日志数据进行过滤,相当于SQL中的where条件。选择过滤的日志字段名不能包含中文。
      • Group by:类似SQL的group by功能,根据指定日志字段对数据进行分组后再按照聚合算法聚合。支持不对数据进行Group by。以下是不Group by和Group by的结果展示,分别计算日志的每分钟整体PV和按HTTP返回码分类的各返回码PV。返回码PV 1返回码PV 2
      • 预览:实际统计会按1分钟进行聚合计算,预览中为方便您调试,按1秒为单位进行计算(只计算最近100条日志数据)。预览目前不支持Group by功能。预览
    6. (可选)创建报警规则。

      可以在创建日志监控时设置报警规则,也可后续需要时再创建报警规则。规则描述选择您在分析日志时统计方法中定义的值。默认为您发送邮件、旺旺和钉钉机器人通知。如果您需要更复杂的报警设置,可在创建好日志监控指标后,通过报警规则页面创建规则。

      创建报警规则
  3. 查看监控数据

    创建完日志监控以后,等待3-5分钟即可查看监控数据。查看方法是进入日志监控的指标列表页面,单击操作中的监控图表,查看监控图。

    日志监控监控图标
  4. 设置报警规则

    您在创建完日志监控后,可以后续再创建报警规则。

    1. 日志监控页面,单击操作列的报警规则日志监控
    2. 报警规则管理页面,单击新建报警规则
    3. 报警规则创建页面,设置报警阈值、触发条件、通知方式和通知对象等主要配置。
    4. 单击确定