您可以通过阿里云云监控服务来监控日志服务的写入流量、总体QPS、服务状态等指标,获取日志服务的使用情况。同时您可以通过创建报警规则,对日志采集、Shard资源使用等异常进行监控。

前提条件

RAM用户查看云监控指标,需要主账户为其授予云监控只读(AliyunCloudMonitorReadOnlyAccess)或读写(AliyunCloudMonitorFullAccess)权限,授权步骤请参见步骤二:为RAM用户授权

查看云监控指标

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 日志存储 > 日志库页签中,选择目标Logstore右侧的日志库管理图标 > 监控
  4. 查看日志服务的监控指标。

云监控指标含义

云监控指标含义
写入流量Logstore每分钟写入数据实时大小。
原始数据大小Logstore每分钟写入数据原始大小,即压缩前的大小。
总体QPS所有操作QPS。
操作次数统计用户每分钟API请求操作的次数。更多信息,请参见API参考
服务状态统计用户操作返回的HTTP状态码的个数。
客户端解析成功流量 Logtail采集成功的日志大小,为原始数据大小。
客户端解析成功行数 Logtail采集成功的日志的行数。
客户端解析失败行数 Logtail采集日志过程中,出现采集错误的行数,如果该视图有数据,表示有错误发生。
客户端错误次数Logtail采集日志过程中,出现采集错误的次数。
客户端错误机器数Logtail采集日志过程中,出现采集错误的告警机器数。
发生错误IP统计 展示各种日志采集错误类型发生的IP数。

请根据具体错误找到出错的IP地址,然后登录机器查看/usr/local/ilogtail/ilogtail.LOG,分析错误原因。

写入行数Logstore每分钟写入数据的行数。
读取流量Logstore每分钟读取数据实时大小。
消费落后时长当前消费进度和队列中最新数据写入时间的差值,在一个消费组中,该值为差值最大的Shard的时间差。

设置云监控报警规则

日志服务支持通过云监控设置报警规则,当服务状态符合报警规则时发送报警短信或邮件。您可以通过设置云监控中的日志监控报警规则,对日志采集、Shard资源使用等异常进行监控。更多信息,请参见云产品监控