使用云监控监测日志服务

您可以通过阿里云云监控服务来监控日志服务的写入流量、总体QPS、服务状态等指标,获取日志服务的使用情况。同时您可以通过创建报警规则,对日志采集、Shard资源使用等异常进行监控。

前提条件

RAM用户查看云监控指标,需要主账户为其授予云监控只读(AliyunCloudMonitorReadOnlyAccess)或读写(AliyunCloudMonitorFullAccess)权限,授权步骤请参见创建RAM用户及授权

查看云监控指标

  1. 登录日志服务控制台

  2. 在Project列表区域,单击目标Project。

    image

  3. 日志存储 > 日志库页签中,选择目标Logstore右侧的日志库管理图标 > 监控

    image

  4. 查看日志服务的监控指标。

云监控指标含义

云监控指标

含义

写入流量

Logstore每分钟写入数据的实时大小。

总体QPS

所有操作QPS。

操作次数

统计用户每分钟API请求操作的次数。更多信息,请参见API概览

服务状态

统计用户操作返回的HTTP状态码的个数。

客户端解析成功流量

Logtail采集成功的日志大小,为原始数据大小。

客户端解析成功行数

Logtail采集成功的日志的行数。

客户端解析失败行数

Logtail采集日志过程中,出现采集错误的行数,如果该视图有数据,则表示发生了错误。

客户端错误次数

Logtail采集日志过程中,出现采集错误的次数。

客户端错误机器数

Logtail采集日志过程中,出现采集错误的告警机器数。

发生错误IP统计

展示各种日志采集错误类型发生的IP数。

请根据具体错误找到出错的IP地址,然后登录机器查看/usr/local/ilogtail/ilogtail.LOG,分析错误原因。

写入行数

Logstore每分钟写入数据的行数。

网络流入流量

向Logtail写入的数据量。

流出流量

从Logtail输出或下载的数据量。

消费落后时长

当前消费进度和队列中最新数据写入时间的差值,在一个消费组中,该值为差值最大的Shard的时间差。

设置云监控报警规则

日志服务支持通过云监控设置报警规则,当服务状态符合报警规则时发送报警短信或邮件。您可以通过设置云监控中的日志监控报警规则,对日志采集、Shard资源使用等异常进行监控。

您可以在目标云产品的监控页面,为该云产品中的资源设置报警规则。当资源符合报警规则时,云监控自动发送报警通知。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云资源监控 > 云产品监控

  3. 云产品监控页面,单击目标云产品。

  4. 为目标云产品创建报警规则。

    • 报警规则列表页面,创建报警规则。

      1. 在目标云产品的监控页面,单击目标资源对应操作列的报警规则

      2. 报警规则列表页面,单击创建报警规则

      3. 创建报警规则面板,设置报警规则相关参数。

      4. 单击确定

    • 在目标云产品的监控页面,创建报警规则。

      1. 在目标云产品的监控页面,单击右上角的创建报警规则

      2. 创建报警规则页面,设置报警规则相关参数。

      3. 单击确定

    说明

    关于如何设置报警规则的相关参数,请参见创建报警规则

查看云监控报警规则

您可以在目标云产品的监控页面,查看该云产品中的所有报警规则。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择云资源监控 > 云产品监控

  3. 云产品监控页面,单击目标云产品。

  4. 在目标云产品的监控页面,单击查看报警规则