日志服务提供服务日志功能,用于记录操作日志、消费组延迟日志、Logtail告警日志、Logtail采集日志和Logtail状态日志,帮助您实时掌握日志服务的使用状况,提高运维效率。

前提条件

已开通服务日志,详情请参见 开通服务日志

监控Logtail心跳

安装Logtail后,日志服务将Logtail状态日志保存在名为internal-diagnostic_log的Logstore中,您可以通过Logtail状态日志,检查Logtail的工作状态。

在internal-diagnostic_log Logstore查询分析页面,执行 __topic__: logtail_status查询语句,即可查询Logtail状态日志,具体操作步骤请参见 查询分析日志。例如执行如下语句查询Logtail状态日志及统计最近一段时间内心跳正常的机器个数,并配置告警。如果查询分析结果低于Logtail所绑定的机器组中的总机器数则触发告警。
  • 查询语句
    __topic__: logtail_status | SELECT COUNT(DISTINCT ip) as ip_count
  • 配置告警规则(此处假设总机器数为100)

    如果产生告警,您可以在日志服务控制台上查看机器组状态,排查心跳异常的机器。

    创建告警

查看消费组延时

在日志服务中,除了查询分析日志外,还可以通过消费组对日志进行消费,详情请参见通过消费组消费日志数据

在使用消费组消费时,日志服务将消费延时日志保存在名为internal-diagnostic_log的Logstore中。您可以通过消费延时日志了解当前的消费进度,当延时较大时,可以及时调整消费者个数等方式来改进消费速度。

在internal-diagnostic_log Logstore查询分析页面,执行 __topic__: consumergroup_log查询语句,即可查询消费组延时日志,具体操作步骤请参见 查询分析日志。例如执行如下语句,查询test-consumer-group这个消费组的消费延时情况。
__topic__: consumergroup_log and consumer_group:  test-consumer-group | SELECT max_by(fallbehind, __time__) as fallbehind

监控Logtail异常情况

安装Logtail后,日志服务将Logtail告警日志保存在名为internal-diagnostic_log的Logstore中,您可以通过Logtail告警日志,及时发现Logtail异常状况,调整Logtail配置,确保日志不丢失。

在internal-diagnostic_log Logstore查询分析页面,执行 __topic__: logtail_alarm查询语句,即可查询Logtail告警日志,具体操作步骤请参见 查询分析日志。例如执行如下语句,查询分析15分钟内各种异常类型发生的次数。
__topic__: logtail_alarm | select sum(alarm_count)as errorCount, alarm_type  GROUP BY alarm_type

操作审计

日志服务Project下所有资源的操作日志保存在internal-operation_log Logstore中,可用于操作审计。每条操作日志不仅记录了操作相关的信息,例如创建机器组会记录机器组名称,操作Logstore会记录Logstore名称等,还记录了操作对应的用户信息。用户信息分类如下表所示:
类型 字段
主账户
  • InvokerUid:阿里云主账户ID
  • CallerType:Parent
RAM用户
  • InvokerUid:RAM用户的UID
  • CallerType:Subuser
Sts
  • InvokerUid:阿里云主账户ID
  • CallerType:Sts
  • RoleSessionName:session名称