采集日志中文乱码的处理方法

当日志包含中文时,使用日志服务采集日志可能会出现中文乱码。本文介绍采集日志中文乱码的解决方法。

问题现象

在使用日志服务采集日志时,日志中包含中文,但是采集后显示如下图所示,出现乱码。

image

采集说明

修改配置仅对新采集的日志生效,已存储的日志数据不会自动修正。如需修正历史日志编码问题,参考本文并且按照导入历史日志文件重新处理。

步骤一:检查原始日志编码格式

  1. Notepad++中打开原始日志,在右下角可以查看当前文件的编码字符集。

    image

  2. 如果编码字符集不是UTF-8,右击鼠标,转换当前文件的编码格式为UTF-8。转码后,检查日志文件是否因为转码导致内容乱码。

    说明

    转码前建议备份日志文件,避免因为转码导致日志内容乱码。

    image

步骤二:修改日志服务采集配置的编码

  1. 登录日志服务控制台Project列表区域,单击目标Project。

    image

  2. 日志存储 > 日志库页签中,单击目标日志库前面的>,依次选择数据接入 > Logtail配置

  3. Logtail配置列表中,单击目标Logtail采集配置。

  4. Logtail配置页面,单击修改

  5. 单击其他输入配置,选择文件编码UTF8,单击保存

    image

步骤三:查看索引配置

  1. 日志存储 > 日志库页签中,单击目标Logstore。

  2. Logstore查询和分析页面,单击查询分析属性 > 属性

    image

  3. 查询分析页面,打开全文索引字段索引包含中文

    image

步骤四:查询日志

查询/分析页面的搜索栏,输入查询或分析语句,并单击查询/分析

说明

按照相关步骤操作后,若查询分析中文日志仍出现乱码,请提工单

image