您可以通过阿里云云监控服务来监控日志服务的写入流量、总体QPS、服务状态等指标,获取日志服务的使用情况。同时您可以通过创建报警规则,对日志收集、Shard资源使用等状态中的异常进行监控。

前提条件

RAM用户查看云监控指标,需要主账户为其授予云监控只读(AliyunCloudMonitorReadOnlyAccess)或读写(AliyunCloudMonitorFullAccess)权限,授权步骤请参见授权RAM用户

查看云监控指标

  1. 登录日志服务控制台
  2. 单击目标Project名称。
  3. 日志管理 > 日志库页签中,单击目标Logstore右侧的日志库管理图标 > 监控,进入云监控控制台查看云监控指标。

云监控指标含义

云监控指标 含义
写入流量 Logstore每分钟写入数据实时大小。
原始数据大小 Logstore每分钟写入数据原始大小,即压缩前的大小。
总体QPS 所有操作QPS。
操作次数 统计用户每分钟API请求操作对应的QPS,具体API接口内容请参见API参考
服务状态 统计用户操作返回的HTTP状态码的个数。
客户端解析成功流量 Logtail采集成功的日志大小,为原始数据大小。
客户端解析成功行数 Logtail采集成功的日志的行数。
客户端解析失败行数 Logtail采集日志过程中,出现采集错误的行数,如果该视图有数据,表示有错误发生。
客户端错误次数 Logtail采集日志过程中,出现采集错误的IP总数。
客户端错误机器数 Logtail采集日志过程中,出现采集错误的告警机器数。
发生错误IP统计 展示各种日志采集错误类型发生的IP数。

请根据具体错误找到出错IP,登录机器查看/usr/logtail/ilogtail.LOG,分析错误原因。

写入行数 Logstore每分钟写入数据的行数。
读取流量 Logstore每分钟读取数据实时大小。
消费落后时长 当前消费进度和队列中最新数据写入时间的差值,在一个消费组中,该值为差值最大的Shard的时间差。

设置云监控报警规则

日志服务支持通过云监控设置报警规则,当服务状态符合报警规则时发送报警短信或邮件。您可以通过设置云监控中的日志监控报警规则,对日志收集、Shard资源使用等状态中的异常进行监控。具体内容请参见报警服务