使用LoongCollector采集日志时,可能遇到正则解析失败、文件路径不正确、流量超过Shard服务能力等问题。日志服务提供诊断功能,帮助定位LoongCollector采集错误信息。如需实时监控LoongCollector,可使用内置告警监控规则,通过钉钉等渠道接收到告警通知。
前提条件
已使用LoongCollector采集日志。具体操作,请参见主机文本日志采集。
运行问题诊断
LoongCollector诊断包括高级版诊断和基础版诊断:
高级版诊断(推荐):提供异常诊断仪表盘,清晰展示LoongCollector相关的异常信息,并且支持更长时间的异常信息查询。
基础版诊断:提供最近1小时内的采集异常信息。
适用场景
LoongCollector状态异常:心跳失败、进程未运行或SSL证书异常。
日志采集异常:日志未采集、延迟过高或解析失败(如正则匹配错误)。
配置错误:文件路径不正确、机器组IP不匹配、跨账号权限问题。
性能瓶颈:采集速率接近或超过默认限制(如20 MB/s),导致日志丢弃。
容器日志采集问题:Pod频繁重启、日志轮转过快导致采集不全。
插件与自定义采集问题:自定义插件(如Grok解析)或HTTP数据源采集失败。
数据可靠性问题:日志丢失(如LoongCollector未运行或轮转速度过快)。
操作步骤如下:
登录日志服务控制台。在Project列表中,单击目标Project。
单击
日志存储,在日志库中,将鼠标悬浮在目标Logstore上,然后单击目标Logstore右侧的
图标。
按需要单击高级版诊断或基础版诊断查看诊断信息。
查看诊断信息。
基础版诊断
日志采集错误面板中将展示该Logstore所对应的所有LoongCollector采集错误列表。您可以单击目标错误代码,查看错误详情。更多信息,请参见日志服务采集数据常见的错误类型。
高级版诊断
在LoongCollector/Logtail异常监控页面,查看活跃客户端数、全量错误信息等信息。采集异常监控仪表盘的更多信息,请参见查看数据报表。错误码的更多信息,请参见日志服务采集数据常见的错误类型。
处理问题完毕后,查看是否仍有报错。历史报错在过期前仍显示,请忽略这部分报错,仅确认在问题处理完毕的时间点之后是否有新的错误。其中LoongCollector上报错误信息的时间间隔为10分钟。
如果您需要查看解析失败而被丢弃的完整日志,可查看LoongCollector运行日志。路径为:
主机场景:在服务器的
/usr/local/ilogtail/loongcollector.LOG
文件中。容器场景:在容器的
/usr/local/ilogtail/loongcollector.LOG
文件中。
运行状况监控
日志服务提供了内置的告警策略协助实时监控LoongCollector,若有以下监控需求时可进行内置告警策略的配置:
LoongCollector心跳异常监控
通过查询
internal-diagnostic_log
中__topic__:logtail_status
日志,统计LoongCollector心跳正常机器数,并配置告警规则(如心跳数低于预期值时触发告警),用于排查宕机或网络异常的机器 。LoongCollector采集异常告警
执行
__topic__: logtail_alarm
查询语句,分析15分钟内各类异常(如文件不可读、权限不足、解析失败)的发生次数,及时发现并修复配置问题,避免日志丢失 。性能瓶颈预警
利用Logtail异常监控仪表盘(展示活跃LoongCollector数、重启列表、全量错误信息等),监控Logtail运行状态及资源使用(如CPU、内存),识别性能瓶颈或异常重启 。
中心化日志采集监控
通过LoongCollector文件采集监控仪表盘(展示采集文件数、平均延迟、解析失败率等),统一管理多账号或多地域场景下的日志采集状态,确保采集连续性 。
操作步骤如下:
配置行动策略:用于在监控告警状态发生变化时,定义如何发送通知。
新建告警规则:用于设置监控规则,当LoongCollector运行状况触发阈值时进行告警。
在告警中心页面,单击告警规则,单击新建告警右侧的
。
单击从模板新建,在从模板新建面板中,单击全部模板下的Logtail错误监控,在右侧面板中选择目标卡片后单击。
在新建告警面板中查看配置,内置告警监控规则已预设参数,请直接单击确定。关于配置参数的说明,请参见创建告警监控规则。