LoongCollector运行情况诊断与监控

使用LoongCollector采集日志时,可能遇到正则解析失败、文件路径不正确、流量超过Shard服务能力等问题。日志服务提供诊断功能,帮助定位LoongCollector采集错误信息。如需实时监控LoongCollector,可使用内置告警监控规则,通过钉钉等渠道接收到告警通知。

前提条件

  • 已使用LoongCollector采集日志。具体操作,请参见主机文本日志采集

  • 开通目标Project的重要日志

    本文仅介绍开通操作步骤,详细了解服务日志请参见开通服务日志

    1. 登录日志服务控制台,在Project列表中单击管理日志资源的Project。在目标Project详情页的服务日志页签中,单击开通服务日志

      image

    2. 在开通服务日志面板中,选择重要日志任务运行日志,单击确定

      • 该操作会在目标地域自动创建名称为log-service-{用户ID}-{region}的Project。

      • 重要日志和任务运行日志接入、存储与查询分析免费。当您进行数据加工、数据投递等操作时,按量计费。

运行问题诊断

LoongCollector诊断包括高级版诊断和基础版诊断:

  • 高级版诊断(推荐):提供异常诊断仪表盘,清晰展示LoongCollector相关的异常信息,并且支持更长时间的异常信息查询。

  • 基础版诊断:提供最近1小时内的采集异常信息。

适用场景

  • LoongCollector状态异常:心跳失败、进程未运行或SSL证书异常。

  • 日志采集异常:日志未采集、延迟过高或解析失败(如正则匹配错误)。

  • 配置错误:文件路径不正确、机器组IP不匹配、跨账号权限问题。

  • 性能瓶颈:采集速率接近或超过默认限制(如20 MB/s),导致日志丢弃。

  • 容器日志采集问题:Pod频繁重启、日志轮转过快导致采集不全。

  • 插件与自定义采集问题:自定义插件(如Grok解析)或HTTP数据源采集失败。

  • 数据可靠性问题:日志丢失(如LoongCollector未运行或轮转速度过快)。

操作步骤如下:

  1. 登录日志服务控制台。在Project列表中,单击目标Project。

  2. 单击image日志存储,在日志库中,将鼠标悬浮在目标Logstore上,然后单击目标Logstore右侧的Logtail配置管理图标。

  3. 按需要单击高级版诊断基础版诊断查看诊断信息。

  4. 查看诊断信息。

    基础版诊断

    日志采集错误面板中将展示该Logstore所对应的所有LoongCollector采集错误列表。您可以单击目标错误代码,查看错误详情。更多信息,请参见日志服务采集数据常见的错误类型错误类型

    高级版诊断

    LoongCollector/Logtail异常监控页面,查看活跃客户端数全量错误信息等信息。采集异常监控仪表盘的更多信息,请参见查看数据报表。错误码的更多信息,请参见日志服务采集数据常见的错误类型

  5. 处理问题完毕后,查看是否仍有报错。历史报错在过期前仍显示,请忽略这部分报错,仅确认在问题处理完毕的时间点之后是否有新的错误。其中LoongCollector上报错误信息的时间间隔为10分钟。

    如果您需要查看解析失败而被丢弃的完整日志,可查看LoongCollector运行日志。路径为:
    主机场景:在服务器的/usr/local/ilogtail/loongcollector.LOG文件中。
    容器场景:在容器的/usr/local/ilogtail/loongcollector.LOG文件中。

运行状况监控

日志服务提供了内置的告警策略协助实时监控LoongCollector,若有以下监控需求时可进行内置告警策略的配置:

  • LoongCollector心跳异常监控

    通过查询 internal-diagnostic_log 中 __topic__:logtail_status 日志,统计LoongCollector心跳正常机器数,并配置告警规则(如心跳数低于预期值时触发告警),用于排查宕机或网络异常的机器 。

  • LoongCollector采集异常告警

    执行 __topic__: logtail_alarm 查询语句,分析15分钟内各类异常(如文件不可读、权限不足、解析失败)的发生次数,及时发现并修复配置问题,避免日志丢失 。

  • 性能瓶颈预警

    利用Logtail异常监控仪表盘(展示活跃LoongCollector数、重启列表、全量错误信息等),监控Logtail运行状态及资源使用(如CPU、内存),识别性能瓶颈或异常重启 。

  • 中心化日志采集监控

    通过LoongCollector文件采集监控仪表盘(展示采集文件数、平均延迟、解析失败率等),统一管理多账号或多地域场景下的日志采集状态,确保采集连续性 。

操作步骤如下:

  1. 配置行动策略:用于在监控告警状态发生变化时,定义如何发送通知。

    1. 登录日志服务控制台

    2. Project列表中,找到开启重要日志功能时选择的Project,单击Project名称。

    3. 在左侧导航栏中,单击image告警,在告警中心页面,选择通知策略 > 行动策略页签。

    4. 在行动策略列表中,找到目标行动策略sls.app.logtail.builtin,单击操作列的修改

    5. 编辑行动策略对话框中,根据业务需求,选择渠道并参考通知渠道说明进行配置,然后单击确认

  2. 新建告警规则:用于设置监控规则,当LoongCollector运行状况触发阈值时进行告警。

    1. 告警中心页面,单击告警规则,单击新建告警右侧的image

    2. 单击从模板新建,在从模板新建面板中,单击全部模板下的Logtail错误监控,在右侧面板中选择目标卡片后单击。

    3. 新建告警面板中查看配置,内置告警监控规则已预设参数,请直接单击确定。关于配置参数的说明,请参见创建告警监控规则