全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
日志服务

日志服务监控指标

更新时间:2017-09-20 08:52:47

指标含义

监控数据入口请参考LogHub监控章节

  1. 写入/读取流量
    • 含义:每个日志库(Logstore)写入、以及读取实时情况。统计该Logstore通过ilogtail和SDK、API等读写实时流量,大小为传输大小(压缩情况下为压缩后),每分钟统计一个点。
    • 单位:Bytes/min
  2. 原始数据大小
    • 含义:每个Logstore写入数据原始大小(压缩前)
    • 单位:Byte/min
  3. 总体QPS
    • 含义:所有操作QPS,每分钟统计一个点
    • 单位:Count/Min
  4. 操作次数
    • 含义:统计用户的各种操作对应的QPS,每分钟统计一个点
    • 单位:次/分钟(Count/Min)
    • 所有的操作包括:
      • 写入操作:
        • PostLogStoreLogs :0.5API以后版本接口。
        • PutData : 0.4 API以前版本接口。
      • 根据关键字查询:
        • GetLogStoreHistogram: 查询关键字分布情况,0.5API以后版本接口。
        • GetLogStoreLogs: 查询关键字命中日志,0.5API以后版本接口。
        • GetDataMeta : 同GetLogStoreHistogram,为0.4API以前版本接口。
        • GetData : 同GetLogStoreLogs,为0.4API以前版本接口。
      • 批量获取数据:
        • GetCursorOrData:该操作包含了获取Cursor和批量获取数据两种方法。
        • ListShards:获取一个Logstore下所有的Shard。
      • List操作:
        • ListCategory:同ListLogStoreLogs,为0.4API以前版本接口。
        • ListTopics:遍历一个Logstore下所有的Topic。
  5. 服务状态
    • 含义:该视图统计用户的各种操作返回的HTTP 状态码对应的QPS,方便用户根据错误的返回码来判断操作异常,及时调整程序。
    • 各状态码:
      • 200:为正常的返回码,表示操作成功。
      • 400:错误的参数,包括Host,Content-length,APIVersion,RequestTimeExpired,查询时间范围,Reverse,AcceptEncoding,AcceptContentType,Shard ,Cursor,PostBody,Paramter,ContentType等方面的错误。
      • 401:鉴权失败,包括AccessKeyId不存在、签名不匹配、或者签名账户没有操作权限,请到SLSweb上查看project权限列表,是否包含了该AK。
      • 403: 超过预定Quota,包括能够创建的Logstore个数、Shard总数、以及读写操作的每分钟限额,请根据返回的Message判断发生了哪种错误。
      • 404:请求的资源不存在,包括project、 Logstore、Topic 、User等资源。
      • 405:错误的操作方法,请检查请求的URL路径。
      • 500:服务端错误,请重试。
      • 502:服务端错误,请重试。
  6. 客户端解析成功流量
    • 含义:Logtail收集成功的日志大小,为原始数据大小
    • 单位:字节
  7. 客户端(Logtail)解析成功行数
    • 含义:Logtail收集成功的日志的行数
    • 单位: 行
  8. 客户端解析失败行数
    • 含义:Logtail收集日志过程中,采集出错的行数大小,如果该视图有数据,表示有错误发生
    • 单位:行
  9. 客户端错误次数
    • 含义:Logtail收集日志过程中,出现所有收集错误的IP总数
    • 单位:次
  10. 发生客户端错误机器数
    • 含义:Logtail收集日志过程中,出现收集错误的告警客户端数目
    • 单位:个
  11. 错误IP统计(Count/5min)
    • 含义:分类别展示各种采集错误发生的IP数,各种错误包括:
      • LOGFILE_PERMINSSION_ALARM:没有权限打开日志文件。
      • SENDER_BUFFER_FULL_ALARM:数据采集速度超过了网络发送速度,数据被丢弃。
      • INOTIFY_DIR_NUM_LIMIT_ALARM(INOTIFY_DIR_QUOTA_ALARM):监控的目录个数超过了3000个,请把监控的根目录设置成更低层目录。
      • DISCARD_DATA_ALARM:数据丢失,因为数据时间在系统时间之前15分钟,请保证新写入日志文件的数据是在15分钟之内的。
      • MULTI_CONFIG_MATCH_ALARM:有多个配置在收集同一个文件,Logtail会随机选择一个配置进行收集,另一个配置则收集不到数据。
      • REGISTER_INOTIFY_FAIL_ALARM:注册inotify事件失败,具体原因请查看Logtail日志。
      • LOGDIR_PERMINSSION_ALARM:没有权限打开监控目录。
      • REGEX_MATCH_ALARM:正则式匹配错误,请调整正则式。
      • ENCODING_CONVERT_ALARM:转换日志编码格式时出现错误,具体原因请查看Logtail日志。
      • PARSE_LOG_FAIL_ALARM:解析日志错误,一般是行首正则表达式错误或单条日志超过512KB导致的日志分行错误,请查看Logtail日志确定原因,如行首正则表达式错误请调整配置。
      • DISCARD_DATA_ALARM:丢弃数据,Logtail发送数据到日志服务失败且写本地缓存文件失败导致,可能的原因是日志文件产生较快但写磁盘缓存文件较慢。
      • SEND_DATA_FAIL_ALARM:解析完成的日志数据发送日志服务失败,请查看Logtail日志发送数据失败相关ErrorCode和ErrorMessage,常见的错误有服务端Quota超限、客户端网络异常等。
      • PARSE_TIME_FAIL_ALARM:解析日志time字段出错,Logtail根据正则表达式解析出来的time字段按照时间格式配置无法解析成功,请修改配置。
      • OUTDATED_LOG_ALARM:Logtail丢弃历史数据,请保证当前写入日志数据的时间与系统时间相差在5分钟以内。
    • 请根据具体错误请找到出错IP,登录机器查看/usr/logtail/ilogtail.LOG查看错误原因。
本文导读目录