主机文本日志采集

本文介绍如何使用LoongCollector(Logtail)实现对ECS实例、自建Linux/Windows等主机文本日志的增量采集。如需采集全量日志,可以通过导入历史日志实现。

权限准备

阿里云主账号登录:默认拥有全部权限,可直接操作。

RAM账号登录:需要主账号授权相应权限策略。

系统权限策略

若使用系统预定义策略,建议添加以下权限:

  • AliyunLogFullAccess:管理日志服务的权限。

  • AliyunECSFullAccess:管理ECS的权限。

  • (可选)AliyunOOSFullAccess:当通过 OOS 一键安装LoongCollector(Logtail)时需要。

自定义权限策略(精细化控制)

当系统策略无法满足最小权限原则时,可通过创建自定义权限策略实现可使用如下示例策略,示例主要包含权限为:

  • 查看Project:查看Project列表,查看指定Project详情。

  • 管理日志库 (Logstore): 在Project下创建新的日志库,或修改、删除已有的日志库。

  • 管理采集配置: 创建、删除和修改采集配置。

  • 查看日志: 查询和分析指定Project下指定日志库中的数据。

替换${regionName} ${uid}${projectName}${logstoreName}为实际的地域名称,主账号id,目标ProjectLogstore。

示例策略

{
  "Version": "1",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "log:ListProject",
        "log:GetAcceleration",
        "log:ListDomains",
        "log:GetLogging",
        "log:ListTagResources"
      ],
      "Resource": "acs:log:${regionName}:${uid}:project/*"
    },
    {
      "Effect": "Allow",
      "Action": "log:GetProject",
      "Resource": "acs:log:${regionName}:${uid}:project/${projectName}"
    },
    {
      "Effect": "Allow",
      "Action": [
        "log:ListLogStores",
        "log:*LogStore",
        "log:*Index",
        "log:ListShards",
        "log:GetCursorOrData",
        "log:GetLogStoreHistogram",
        "log:GetLogStoreContextLogs",
        "log:PostLogStoreLogs"
      ],
      "Resource": "acs:log:${regionName}:${uid}:project/${projectName}/*"
    },
    {
      "Effect": "Allow",
      "Action": "log:*",
      "Resource": [
        "acs:log:${regionName}:${uid}:project/${projectName}/logtailconfig/*",
        "acs:log:${regionName}:${uid}:project/${projectName}/machinegroup/*"
      ]
    },
    {
      "Effect": "Allow",
      "Action": "log:ListSavedSearch",
      "Resource": "acs:log:${regionName}:${uid}:project/${projectName}/savedsearch/*"
    },
    {
      "Effect": "Allow",
      "Action": "log:ListDashboard",
      "Resource": "acs:log:${regionName}:${uid}:project/${projectName}/dashboard/*"
    },
    {
      "Effect": "Allow",
      "Action": "log:GetLogStoreLogs",
      "Resource": "acs:log:${regionName}:${uid}:project/${projectName}/logstore/${logstoreName}"
    },
    {
      "Effect": "Allow",
      "Action": [
        "ecs:DescribeTagKeys",
        "ecs:DescribeTags",
        "ecs:DescribeInstances",
        "ecs:DescribeInvocationResults",
        "ecs:RunCommand",
        "ecs:DescribeInvocations",
        "ecs:InvokeCommand"
      ],
      "Resource": "*"
    },
    {
      "Effect": "Allow",
      "Action": [
        "oos:ListTemplates",
        "oos:StartExecution",
        "oos:ListExecutions",
        "oos:GetExecutionTemplate",
        "oos:ListExecutionLogs",
        "oos:ListTaskExecutions"
      ],
      "Resource": "*"
    }
  ]
}

权限

对应操作

资源

只读Project

  • GetAcceleration

  • GetLogging

  • ListProject

  • ListDomains

  • ListTagResources

acs:log:${regionName}:${uid}:project/*

获取指定Project

GetProject

acs:log:${regionName}:${uid}:project/${projectName}

管理Logstore

  • ListLogStores

  • *LogStore

  • *Index

  • ListShards

  • GetCursorOrData

  • GetLogStoreHistogram

  • GetLogStoreContextLogs

  • PostLogStoreLogs

acs:log:${regionName}:${uid}:project/${projectName}/*

管理LoongCollector(Logtail)数据接入

*

  • acs:log:${regionName}:${uid}:project/${projectName}/logtailconfig/*

  • acs:log:${regionName}:${uid}:project/${projectName}/machinegroup/*

查询快速查询

ListSavedSearch

acs:log:${regionName}:${uid}:project/${projectName}/savedsearch/*

查询仪表盘

ListDashboard

acs:log:${regionName}:${uid}:project/${projectName}/dashboard/*

查询指定日志库日志

GetLogStoreLogs

acs:log:${regionName}:${uid}:project/${projectName}/logstore/${logstoreName}

操作ECS的权限

  • DescribeTagKeys

  • DescribeTags

  • DescribeInstances

  • DescribeInvocationResults

  • RunCommand

  • DescribeInvocations

  • InvokeCommand

*

操作OOS的权限(可选)

仅在日志服务与ECS实例同账号同地域通过OOS自动化安装LoongCollector(Logtail)时需要。

  • ListTemplates

  • StartExecution

  • ListExecutions

  • GetExecutionTemplate

  • ListExecutionLogs

  • ListTaskExecutions

*

采集配置创建流程

  1. 创建ProjectLogstoreProject是资源管理单元,隔离不同业务日志,而Logstore用于存储日志。

  2. 安装LoongCollectorLoongCollector 是新一代日志采集 Agent,是 Logtail 的升级版。

  3. 创建采集配置:

    本文仅介绍常用的配置参数,涵盖典型使用场景下的核心选项。如需了解完整的配置参数列表及详细说明,请参考更多信息
    • 全局配置:定义采集配置的名称。

    • 输入配置定义采集的来源。

    • 常用处理配置对原始日志内容进行结构化解析、开启多行日志采集或进行脱敏、过滤等处理。

    • 输出配置:配置日志传输过程中的压缩方式。

    • 其他高级配置:配置日志主题类型,采集黑名单,首次采集大小以及允许文件被多个配置重复采集。

创建ProjectLogstore

若您已提前创建好ProjectLogstore,可跳过此步骤,直接安装LoongCollector(Logtail)

  1. 登录日志服务控制台

  2. 单击创建Project

  3. 配置:

    • 所属地域:根据日志来源选择,创建后不可修改。

    • Project名称:阿里云内全局唯一,创建后不可修改。

  4. 其他配置保持默认,单击创建。如需了解其他参数,请参见管理Project

  5. 单击Project名称,进入目标Project。

  6. 在左侧导航栏,选择image日志存储,单击+

  7. 在创建Logstore页面,完成以下核心配置:

    • Logstore名称:设置一个在Project内唯一的名称。该名称创建后不可修改。

    • Logstore类型:根据规格对比选择标准型或查询型。

    • 计费模式

      • 按使用功能计费:按存储、索引、读写次数等各项资源独立计费。适合小规模或功能使用不确定的场景。

      • 按写入数据量计费:仅按原始写入数据量计费,并提供30天的免费存储周期及免费的数据加工、投递等功能。成本模型简单,适合存储周期接近30天或数据处理链路复杂的场景。

    • 数据保存时间:设置日志的保留天数,取值范围为1~3650天(3650天表示永久保存)。默认为30天。

  8. 其他配置保持默认,单击确定。如需了解其他配置信息,请参考管理Logstore

安装LoongCollector(Logtail)

本文仅提供安装LoongCollector的基础操作步骤,如需了解详细信息,请参考LoongCollector安装(Linux)

如果您已安装LoongCollectorLogtail,可跳过此步骤,直接创建采集配置

  1. 登录日志服务控制台,单击目标Project,在日志库(Logstore)image页面:

    1. 单击目标Logstore名称前的image展开,

    2. 单击数据接入后的image

    3. 在弹框中选择文本日志接入模板,单击立即接入

image

日志服务提供了正则、单行等多种文本日志接入模板,各模板之间除了解析插件不同外,其余配置完全相同;同时,模板内支持添加、删除解析插件。此处您可以根据采集日志的特点选择模板,也可以任意选择文本日志模板后再根据日志特点进行插件配置
  1. 机器组配置,完成后单击下一步

    • 使用场景主机场景

    • 安装环境:支持ECS自建机器 - Linux自建机器 - Windows

    • 单击创建机器组

      ECS

      1. 选择与Project同地域ECS实例(ECS实例可以选择多台)。

      2. 单击安装并创建为机器组,等待安装完成。

      3. 配置机器组名称并单击确定

        说明

        如果安装失败或一直处于等待中,请检查ECS地域是否与Project相同。若ECS地域与Project不属于同一账号或地域,请参考LoongCollector安装(Linux)

      自建机器 - Linux

      1. 根据网络类型复制对应的安装命令,在服务器上下载并安装LoongCollector:

        您在控制台上获取的命令是一条完整的复合指令,依次包含下载安装包、添加执行权限、安装LoongCollector三个操作,通过分号 ; 连接,可一键执行该命令。
        • 公网:属于以下两种情况时,请选择公网传输数据。

          • ECS实例和日志服务Project属于不同地域。

          • 服务器为其他云厂商服务器或自建IDC。

        • 全球加速:如果业务服务器、日志服务Project分别属于国内地域国外地域,使用公网传输数据可能会出现网络延迟高、传输不稳定等问题,您可以选择传输加速传输数据。

          需要先打开Project日志跨域传输加速功能,再执行安装命令。

        安装完成后,您可执行如下命令查看启动状态:返回loongcollector is running表示启动成功。

        sudo /etc/init.d/loongcollectord status
      2. (可选)配置主账号AliUid作为用户标识:只有在采集非本账号ECS、自建服务器、其他云厂商服务器日志时需要配置用户ID。

        1. 在控制台复制如下命令:

          touch /etc/ilogtail/users/155***********44
        2. 在目标服务器,执行该命令,创建用户标识文件。

      3. 配置机器组:

        1. 在服务器上将自定义字符串user-defined-test-1写入用户自定义标识文件。

          #向指定文件写入自定义字符串,若目录不存在需手动创建。文件路径和名称由日志服务固定,不可自定义。
          echo "user-defined-test-1" > /etc/ilogtail/user_defined_id 
        2. 在控制台的机器组设置区域,进行如下配置,并单击确定

          • 名称:设置机器组名称,Project内唯一,必须以小写字母或数字开头和结尾,且只能包含小写字母、数字、连字符(-)和下划线(_),长度为3~128字符。

          • 机器组标识:选择用户自定义标识

          • 用户自定义标识:输入配置的用户自定义标识,需要与服务器用户自定义标识文件中自定义字符串内容一致。此例为user-defined-test-1

        3. 单击下一步,页面出现机器组心跳情况。查看心跳状态:

        4. 单击下一步,进入Logtail配置页面。

      自建机器 - Windows

      LoongCollector暂不支持Windows系统,如需在Windows主机上采集日志,需要安装Logtail
      1. 在控制台上,根据地域下载安装包。

      2. 解压loongcollector_installer.zip到当前目录。

      3. 以管理员身份运行Windows PowerShellcmd,进入loongcollector_installer目录(您的安装包的解压目录)。在控制台上,根据网络类型复制对应的安装命令:

        • 公网:适用于大多数场景,常见于跨地域或其他云/自建服务器,但受带宽限制且可能不稳定。

        • 全球加速:用于跨地域(如中国内地到海外),通过CDN加速提升性能,避免公网延迟高,传输不稳定问题,但流量需额外计费。

          需要先打开Project日志跨域传输加速功能,再执行安装命令。
      4. (可选)配置主账号AliUid作为用户标识:只有在采集非本账号ECS、自建服务器、其他云厂商服务器日志时需要配置用户ID。

        创建主账号AliUid同名文件到目录 C:\LogtailData\users,例如:C:\LogtailData\users\155***********44

      5. 配置机器组:

        1. 在服务器的指定目录C:\LogtailData下,创建user_defined_id用户自定义标识文件。

          如果目录C:\LogtailData不存在,请手动创建。
        2. 将自定义字符串user-defined-test-1写入该文件C:\LogtailData\user_defined_id

          同一机器组中不允许同时存在Linux服务器、Windows服务器,即请勿在LinuxWindows服务器上配置相同的用户自定义标识。一个服务器可配置多个用户自定义标识,标识之间以换行符分割。
        3. 在控制台的机器组设置区域,进行如下配置,并单击确定

          • 名称:设置机器组名称,Project内唯一,必须以小写字母或数字开头和结尾,且只能包含小写字母、数字、连字符(-)和下划线(_),长度为3~128字符。

          • 机器组标识:选择用户自定义标识

          • 用户自定义标识:输入配置的用户自定义标识,需要与服务器用户自定义标识文件中自定义字符串内容一致。此例为user-defined-test-1

        4. 单击下一步,页面出现机器组心跳情况。查看心跳状态:

        5. 单击下一步,进入Logtail配置页面。

全局配置

  • 配置名称:采集配置名称,在其所属Project内必须唯一。创建成功后,无法修改。命名规则:

    • 仅支持小写字母、数字、连字符(-)和下划线(_)。

    • 必须以小写字母或者数字作为开头和结尾。

输入配置

  • 类型文本日志采集

  • 文件路径:日志采集的路径。

    • Linux:以“/”开头,如/data/mylogs/**/*.log,表示/data/mylogs目录下所有后缀名为.Log的文件。

    • Windows:以盘符开头,如C:\Program Files\Intel\**\*.Log

  • 最大目录监控深度文件路径中通配符**匹配的最大目录深度。默认为0,表示只监控本层目录。

常用处理配置

此处仅介绍原生处理插件,覆盖常见日志处理场景,如需更多功能,请参考扩展处理插件
重要

对于Logtail 2.0及以上版本以及LoongCollector组件,推荐遵循以下插件组合规则:

  • 优先使用原生插件。

  • 当原生插件无法满足需求时,可在原生插件后配置扩展插件。

  • 原生插件只能在扩展插件之前使用。

结构化配置

如果您在安装LoongCollector(Logtail)时,根据日志格式选择了文本日志接入模板,系统会自动为您预置对应的解析插件,但该插件仍需手动配置:

请单击插件名称,进入配置页面,参考如下说明配置解析插件,也可以根据业务需求灵活添加其他解析插件,或删除不需要的插件。

正则解析

通过正则表达式提取日志字段,并将日志解析为键值对形式。

  1. 添加日志样例:使用实际场景中待采集日志的样例。配置日志样例可协助配置日志处理相关参数,降低配置难度。

  2. 单击添加处理插件,选择原生处理插件 > 正则解析

    • 正则表达式:用于匹配日志,支持自动生成或手动输入:

      • 自动生成:

        • 单击自动生成正则表达式

        • 日志样例中划选需要提取的日志内容。

        • 单击生成正则

          image

      • 手动输入:根据日志格式手动输入正则表达式

      配置完成后,单击验证,测试正则表达式是否能够正确解析日志内容。

    • 日志提取字段:为提取的日志内容(Value),设置对应的字段名(Key)。

原始日志:

127.0.0.1 - - [16/Aug/2024:14:37:52 +0800] "GET /wp-admin/admin-ajax.php?action=rest-nonce HTTP/1.1" 200 41 "http://www.example.com/wp-admin/post-new.php?post_type=page" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"

自定义正则解析:正则表达式(\S+)\s-\s(\S+)\s\[([^]]+)]\s"(\w+)\s(\S+)\s([^"]+)"\s(\d+)\s(\d+)\s"([^"]+)"\s"([^"]+).*

body_bytes_sent: 41
http_referer: http://www.example.com/wp-admin/post-new.php?post_type=page
http_user_agent: Mozilla/5.0 (Windows NT 10.0; Win64; ×64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0
remote_addr: 127.0.0.1
remote_user: -
request_method: GET
request_protocol: HTTP/1.1
request_uri: /wp-admin/admin-ajax.php?action=rest-nonce
status: 200
time_local: 16/Aug/2024:14:37:52 +0800

分隔符解析

通过分隔符将日志内容结构化,解析为多个键值对形式,支持单字符分隔符和多字符分隔符。

单击添加处理插件,选择原生处理分隔符解析

  • 分隔符:指定用于切分日志内容的字符。

    示例:对于CSV格式文件,选择自定义,输入半角逗号(,)。

  • 引用符:当某个字段值中包含分隔符时,需要指定引用符包裹该字段,避免错误切割。

  • 日志提取字段:按分隔顺序依次为每一列设置对应的字段名称(Key)。规则要求如下:

    • 字段名只能包含:字母、数字、下划线(_)。

    • 必须以字母或下划线(_)开头。

    • 最大长度:128字节。

原始日志:

05/May/2025:13:30:28,10.10.*.*,"POST /PutData?Category=YunOsAccountOpLog&AccessKeyId=****************&Date=Fri%2C%2028%20Jun%202013%2006%3A53%3A30%20GMT&Topic=raw&Signature=******************************** HTTP/1.1",200,18204,aliyun-sdk-java

按指定字符,切割字段:

ip:10.10.*.*
request:POST /PutData?Category=YunOsAccountOpLog&AccessKeyId=****************&Date=Fri%2C%2028%20Jun%202013%2006%3A53%3A30%20GMT&Topic=raw&Signature=******************************** HTTP/1.1
size:18204
status:200
time:05/May/2025:13:30:28
user_agent:aliyun-sdk-java

标准JSON解析

Object类型的JSON日志结构化,解析为键值对形式。

单击添加处理插件,选择原生处理插件 > JSON解析

  • 原始字段:默认值为content(此字段用于存放待解析的原始日志内容)。

  • 其余配置保持默认。

原始日志:

{"url": "POST /PutData?Category=YunOsAccountOpLog&AccessKeyId=U0Ujpek********&Date=Fri%2C%2028%20Jun%202013%2006%3A53%3A30%20GMT&Topic=raw&Signature=pD12XYLmGxKQ%2Bmkd6x7hAgQ7b1c%3D HTTP/1.1", "ip": "10.200.98.220", "user-agent": "aliyun-sdk-java", "request": {"status": "200", "latency": "18204"}, "time": "05/Jan/2025:13:30:28"}

标准JSON键值自动提取:

ip: 10.200.98.220
request: {"status": "200", "latency" : "18204" }
time: 05/Jan/2025:13:30:28
url: POST /PutData?Category=YunOsAccountOpLog&AccessKeyId=U0Ujpek******&Date=Fri%2C%2028%20Jun%202013%2006%3A53%3A30%20GMT&Topic=raw&Signature=pD12XYLmGxKQ%2Bmkd6x7hAgQ7b1c%3D HTTP/1.1
user-agent:aliyun-sdk-java

嵌套JSON解析

通过指定展开深度,将嵌套的JSON日志解析为键值对形式。

单击添加处理插件,选择拓展处理插件 > 展开JSON字段

  • 原始字段:需要展开的原始字段名,例如content

  • JSON展开深度:JSON对象的展开层级。0表示完全展开(默认值),1表示当前层级,以此类推。

  • JSON展开连接符:JSON展开时字段名的连接符,默认为下划线 _。

  • JSON展开字段前缀:指定JSON展开后字段名的前缀。

  • 展开数组:开启此项可将数组展开为带索引的键值对。

    示例:{"k":["a","b"]} 展开为  {"k[0]":"a","k[1]":"b"}

    如果需要对展开后的字段进行重命名(例如,将 prefix_s_key_k1 改为 new_field_name),可以后续再添加一个重命名字段插件来完成映射。

原始日志:

{"s_key":{"k1":{"k2":{"k3":{"k4":{"k51":"51","k52":"52"},"k41":"41"}}}}}

展开深度:0,并使用展开深度作为前缀。

0_s_key_k1_k2_k3_k41:41
0_s_key_k1_k2_k3_k4_k51:51
0_s_key_k1_k2_k3_k4_k52:52

展开深度:1,并使用展开深度作为前缀。

1_s_key:{"k1":{"k2":{"k3":{"k4":{"k51":"51","k52":"52"},"k41":"41"}}}}

JSON数组解析

使用json_extract函数,从JSON数组中提取JSON对象。

处理模式切换为SPL

  • SPL语句:使用  json_extract函数从JSON数组中提取JSON对象。

    示例:从日志字段 content 中提取 JSON 数组中的元素,并将结果分别存储在新字段 json1和 json2 中。

    * | extend json1 = json_extract(content, '$[0]'), json2 = json_extract(content, '$[1]')

原始日志:

[{"key1":"value1"},{"key2":"value2"}]

提取JSON数组结构:

json1:{"key1":"value1"}
json2:{"key2":"value2"}

Nginx日志解析

根据log_format中的定义将日志内容结构化,解析为多个键值对形式。如默认内容不符合您的需求,可使用自定义格式。

单击添加处理插件,选择原生处理插件 > NGINX模式解析

  • NGINX日志配置:请将 Nginx 服务器配置文件(通常位于 /etc/nginx/nginx.conf)中的 log_format 定义完整地复制并粘贴到此文本框中。

    示例:

    log_format main  '$remote_addr - $remote_user [$time_local] "$request" ''$request_time $request_length ''$status $body_bytes_sent "$http_referer" ''"$http_user_agent"';
    重要

    此处的格式定义必须与服务器上生成日志的格式完全一致,否则将导致日志解析失败。

原始日志:

192.168.*.* - - [15/Apr/2025:16:40:00 +0800] "GET /nginx-logo.png HTTP/1.1" 0.000 514 200 368 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.*.* Safari/537.36"

根据log_format main的定义解析为键值对:

body_bytes_sent: 368
http_referer: -
http_user_agent : Mozi11a/5.0 (Nindows NT 10.0; Win64; x64) AppleMebKit/537.36 (KHTML, like Gecko) Chrome/131.0.x.x Safari/537.36
remote_addr:192.168.*.*
remote_user: -
request_length: 514
request_method: GET
request_time: 0.000
request_uri: /nginx-logo.png
status: 200
time_local: 15/Apr/2025:16:40:00

Apache日志解析

根据Apache日志配置文件中的定义将日志内容结构化,解析为多个键值对形式。

单击添加处理插件,选择原生处理插件 > APACHE模式解析

  • 日志格式combined

  • APACHE配置字段:系统会根据日志格式自动填充配置。

    重要

    请务必核对自动填充的内容,确保与服务器上 Apache 配置文件(通常位于/etc/apache2/apache2.conf)中定义的 LogFormat 完全一致。

原始日志:

1 192.168.1.10 - - [08/May/2024:15:30:28 +0800] "GET /index.html HTTP/1.1" 200 1234 "https://www.example.com/referrer" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.X.X Safari/537.36"

Apache通用日志格式combined解析:

http_referer:https://www.example.com/referrer
http_user_agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.X.X Safari/537.36
remote_addr:192.168.1.10
remote_ident:-
remote_user:-
request_method:GET
request_protocol:HTTP/1.1
request_uri:/index.html
response_size_bytes:1234
status:200
time_local:[08/May/2024:15:30:28 +0800]

IIS日志解析

根据IIS日志格式定义将日志内容结构化,解析为多个键值对形式。

单击添加处理插件,选择原生处理插件 > IIS模式解析

  • 日志格式:选择您的IIS服务器日志采用的日志格式。

    • IIS:Microsoft IIS日志文件格式。

    • NCSA:NCSA公用日志文件格式。

    • W3C:W3C扩展日志文件格式。

  • IIS配置字段:选择IISNCSA时,日志服务已默认设置了IIS配置字段,选择W3C时,设置为您的IIS配置文件中logExtFileFlags参数中的内容。例如:

    logExtFileFlags="Date, Time, ClientIP, UserName, SiteName, ComputerName, ServerIP, Method, UriStem, UriQuery, HttpStatus, Win32Status, BytesSent, BytesRecv, TimeTaken, ServerPort, UserAgent, Cookie, Referer, ProtocolVersion, Host, HttpSubStatus"

原始日志:

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken

微软IIS服务器专用格式适配:

c-ip: cs-username
cs-bytes: sc-substatus
cs-method: cs-method
cs-uri-query: cs-uri-query
cs-uri-stem: cs-uri-stem
cs-username: s-port
date: #Fields:
s-computername: s-sitename
s-ip: s-ip
s-sitename: time
sc-bytes: sc-status
sc-status: c-ip
sc-win32-status: cs (User-Agent)
time: date
time-taken: sc-win32-status

数据脱敏

对日志中的敏感数据进行脱敏处理。

处理配置区域,单击添加处理插件,选择原生处理插件 > 脱敏处理

  • 原始字段:解析日志前,用于存放日志内容的原始字段。

  • 脱敏方式

    • const:将敏感内容替换成所修改的字符串。

    • md5:将敏感内容替换为其对应的MD5值。

  • 替换字符串:选择脱敏方式const时,需要输入字符串,用于替换敏感内容。

  • 被替换内容前的内容表达式:用于查找敏感内容,使用RE2语法配置。

  • 被替换的内容表达式:敏感内容的表达式,使用RE2语法配置。

原始日志:

[{'account':'1812213231432969','password':'04a23f38'}, {'account':'1812213685634','password':'123a'}]

脱敏结果:

[{'account':'1812213231432969','password':'********'}, {'account':'1812213685634','password':'********'}]

内容过滤

基于正则表达式匹配日志字段值,仅采集符合白名单条件的日志。

处理配置区域,单击添加处理插件,选择原生处理插件 > 过滤处理

  • 字段名:过滤的日志字段。

  • 字段值:用于过滤的正则表达式,仅支持全文匹配,不支持关键词部分匹配。

原始日志:

{"level":"WARNING","timestamp":"2025-09-23T19:11:40+0800","cluster":"yilu-cluster-0728","message":"Disk space is running low","freeSpace":"15%"}
{"level":"ERROR","timestamp":"2025-09-23T19:11:42+0800","cluster":"yilu-cluster-0728","message":"Failed to connect to database","errorCode":5003}
{"level":"INFO","timestamp":"2025-09-23T19:11:47+0800","cluster":"yilu-cluster-0728","message":"User logged in successfully","userId":"user-123"}

过滤日志:设置字段名level字段值WARNING|ERROR,表示只采集level字段值为WARNINGERROR的日志。

{"level":"WARNING","timestamp":"2025-09-23T19:11:40+0800","cluster":"yilu-cluster-0728","message":"Disk space is running low","freeSpace":"15%"}
{"level":"ERROR","timestamp":"2025-09-23T19:11:42+0800","cluster":"yilu-cluster-0728","message":"Failed to connect to database","errorCode":5003}

时间解析

对日志中的时间字段进行解析,并将解析结果设置为日志的__time__字段。

处理配置区域,单击添加处理插件,选择原生处理插件 > 时间解析

  • 原始字段:解析日志前,用于存放日志内容的原始字段。

  • 时间格式:根据日志中的时间内容设置对应的时间格式

  • 时区:选择日志时间字段所在的时区。默认使用机器时区,即LoongCollector(Logtail)进程所在环境的时区。

原始日志:

{"level":"INFO","timestamp":"2025-09-23T19:11:47+0800","cluster":"yilu-cluster-0728","message":"User logged in successfully","userId":"user-123"}

时间解析:

image

多行日志采集

默认情况下,日志服务以单行模式工作,会将每一行文本都视为一条独立的日志。这会导致包含堆栈跟踪、JSON 等内容的多行日志被错误地拆分,从而丢失上下文。

针对上述问题,可以开启多行模式,定义一个行首正则表达式,让日志服务能够准确识别一条完整日志的起始行,从而将多行内容合并为一条日志。

处理配置

  • 开启多行模式

  • 类型:选择自定义多行JSON

    • 自定义:原始日志的格式不固定,需配置行首正则表达式,来标识每条日志的起始行。

      • 行首正则表达式:支持自动生成或手动输入,正则表达式需要能够匹配完整的一行数据,如上述示例中匹配的正则表达式为\[\d+-\d+-\w+:\d+:\d+,\d+]\s\[\w+]\s.*

        • 自动生成:单击自动生成正则表达式,然后在日志样例文本框中,划选需提取的日志内容,单击生成正则

        • 手动输入:单击手动输入正则表达式,输入完成后,单击验证

    • 多行JSON:当原始日志均为标准JSON格式时选择,日志服务会自动处理单条JSON日志内部的换行。

  • 切分失败处理方式

    • 丢弃:如果一段文本无法匹配行首规则,则直接丢弃。

    • 保留单行:将无法匹配的文本按原始的单行模式进行切分和保留。

原始日志:

[2023-10-01T10:30:01,000] [INFO] java.lang.Exception: exception happened
    at TestPrintStackTrace.f(TestPrintStackTrace.java:3)
    at TestPrintStackTrace.g(TestPrintStackTrace.java:7)
    at TestPrintStackTrace.main(TestPrintStackTrace.java:16)

单行模式:每行作为独立日志,堆栈信息被拆散,丢失上下文。

image

多行模式:通过行首正则识别完整日志,保留完整语义结构。

content:[2023-10-01T10:30:01,000] [INFO] java.lang.Exception: exception happened
    at TestPrintStackTrace.f(TestPrintStackTrace.java:3)
    at TestPrintStackTrace.g(TestPrintStackTrace.java:7)
    at TestPrintStackTrace.main(TestPrintStackTrace.java:16)

输出配置

配置日志传输压缩:

说明

Logtail 1.3.4及以上的版本支持zstd压缩。

  • lz4:压缩速度快,压缩率较低。

  • zstd:压缩率高,速度略低,内存占用高。

其他高级配置

配置日志主题类型

全局配置 > 其他全局配置 > 日志主题类型:选择Topic生成方式。

  • 机器组Topic:日志服务支持将一个采集配置应用到多个机器组。LoongCollector上报数据时,会将服务器所在机器组的Topic作为日志主题上传至Logstore,您可以根据Topic区分来自不同机器组的日志。

  • 文件路径提取:若不同的用户或应用将日志写入不同的顶级目录,但下级路径和文件名相同,导致无法从文件名区分日志来源。此时您可以配置文件路径提取,通过正则表达式来匹配完整的文件路径,并将匹配结果(用户名或应用名)作为日志主题(Topic)上传至Logstore。

    说明

    文件路径的正则表达式中,需要对正斜线(/)进行转义。

    通过文件路径正则提取

    场景描述:不同用户将日志记录在不同目录下,但是日志文件名称相同,目录路径如下所示。

    /data/logs
    ├── userA
    │   └── serviceA
    │       └── service.log
    ├── userB
    │   └── serviceA
    │       └── service.log
    └── userC
        └── serviceA
            └── service.log

    如果在Logtail配置中仅配置文件路径为/data/logs且文件名称为service.log,LoongCollector(Logtail)会将三个service.log文件中的内容采集至同一个Logstore中,因此无法区分日志具体由哪个用户产生。此时您可以使用正则表达式提取文件路径中的值,生成不同的日志主题。

    正则表达式

    提取结果

    \/data\/logs\/(.*)\/serviceA\/.*
    __topic__: userA
    __topic__: userB
    __topic__: userC

    通过多捕获组提取

    场景描述:如果单个日志主题不足以区分日志的来源,可以在日志文件路径中配置多个正则捕获组来提取关键信息。其中捕获组包括命名捕获组(?P<name>)和非命名捕获组两类。

    • 命名捕获组:生成的tag字段为__tag__:{name}

    • 非命名捕获组:生成的tag字段为__tag__:__topic_{i}__,其中{i}为捕获组的序号。

    说明

    当正则表达式中存在多个捕获组时,不会生成__topic__字段。

    例如,文件路径为/data/logs/userA/serviceA/service.log,可通过以下方式提取文件路径中的多个值:

    示例

    正则表达式

    提取结果

    使用非命名捕获组进行正则提取。

    \/data\/logs\/(.*?)\/(.*?)\/service.log
    __tag__:__topic_1__: userA
    __tag__:__topic_2__: serviceA

    使用命名捕获组进行正则提取。

    \/data\/logs\/(?P<user>.*?)\/(?P<service>.*?)\/service.log
    __tag__:user: userA
    __tag__:service: serviceA

    验证:配置完成后,可以根据日志主题查询日志。

    在日志查询分析页面,输入对应生成的日志主题,例如__topic__: userA__tag__:__topic_1__: userA查询相应主题的日志。

    image

  • 自定义:输入customized:// + 自定义主题名,使用自定义的静态日志主题。


黑名单

输入配置 > 其他输入配置:开启采集黑名单,单击添加,配置黑名单。

支持完整匹配和通配符匹配目录和文件名,通配符只支持星号(*)和半角问号(?)。
  • 文件路径黑名单:需要忽略的文件路径,示例:

    • /home/admin/private*.log:在采集时忽略/home/admin/目录下所有以private开头,以.log结尾的文件。

    • /home/admin/private*/*_inner.log:在采集时忽略/home/admin/目录下以private开头的目录内,以_inner.log结尾的文件。

  • 文件黑名单:配置采集时需要忽略的文件名,示例:

    • app_inner.log:在采集时忽略所有名为app_inner.log的文件。

  • 目录黑名单:目录路径不能以正斜线(/)结尾,示例:

    • /home/admin/dir1/:目录黑名单不会生效。

    • /home/admin/dir*:在采集时忽略/home/admin/目录下所有以dir开头的子目录下的文件。

    • /home/admin/*/dir:在采集时忽略/home/admin/目录下二级目录名为dir的子目录下的所有文件。例如/home/admin/a/dir目录下的文件被忽略,/home/admin/a/b/dir目录下的文件被采集。


配置首次采集大小

配置首次生效时,匹配文件的起始采集位置距离文件结尾的大小。

输入配置 > 其他输入配置:配置首次采集大小,默认为1024 KB。取值范围为0~10485760KB。

  • 首次采集时,如果文件小于1024 KB,则从文件内容起始位置开始采集。

  • 首次采集时,如果文件大于1024 KB,则从距离文件末尾1024 KB的位置开始采集。


允许文件多次采集

默认一个日志文件只能匹配一个LoongCollector(Logtail)配置,开启后,同一个文件支持被多个LoongCollector(Logtail)配置采集。

输入配置 > 其他输入配置:开启允许文件多次采集

常见问题

如何将ECS服务器的日志传输到另一个阿里云账号的Project?

如果您尚未安装LoongCollector,请参考安装LoongCollector(Logtail)选择合适的跨账号场景进行安装;

如果您已安装了LoongCollector,请参考如下步骤配置用户标识,用于标识这台服务器有权限被日志服务Project所属账号访问、采集日志。

只有在采集非本账号ECS、自建IDC、其他云厂商服务器日志时需要配置用户标识。
  1. 复制日志服务所属的主账号ID:鼠标悬浮在右上角用户头像上,在弹出的标签页中查看并复制账号ID。

  2. 登录需要采集日志的服务器,创建阿里云账号ID文件配置用户标识:

    touch /etc/ilogtail/users/{阿里云账号ID} # 如果/etc/ilogtail/users目录不存在,请手动创建目录。用户标识配置文件只需配置文件名,无需配置文件后缀。

如何将ECS服务器的日志传输到同账号不同地域的Project?

如果您尚未安装LoongCollector,请参考安装LoongCollector(Logtail)选择合适的跨地域场景进行安装;

如果已安装LoongCollector,则需要修改LoongCollector配置。

  1. 执行sudo /etc/init.d/ilogtaild stop命令,停止LoongCollector。

  2. 修改LoongCollector启动配置文件ilogtail_config.json,根据您的网络需求从以下两种方式中选择一种进行修改:

    配置文件路径:/usr/local/ilogtail/ilogtail_config.json

    • 方式一:使用公网传输

      参考RegionID,将配置文件中的地域替换为日志服务所在的地域,需要修改的字段包括:

      • primary_region

      • config_servers 中的地域部分

      • data_servers 中的 region 和 endpoint_list 地域部分

    • 方式二:使用传输加速

      data_server_list参数中的endpoint一行替换为log-global.aliyuncs.com。文件路径,请参见Logtail网络类型,启动参数与配置文件

    配置文件示例

    $cat 
    {
        "primary_region" : "cn-shanghai",
        "config_servers" :
        [
            "http://logtail.cn-shanghai.log.aliyuncs.com"
        ],
        "data_servers" :
        [
            {
                "region" : "cn-shanghai",
                "endpoint_list": [
                    "cn-shanghai.log.aliyuncs.com"
                ]
            }
        ],
        "cpu_usage_limit" : 0.4,
        "mem_usage_limit" : 384,
        "max_bytes_per_sec" : 20971520,
        "bytes_per_sec" : 1048576,
        "buffer_file_num" : 25,
        "buffer_file_size" : 20971520,
        "buffer_map_num" : 5
    }
  1. 执行sudo /etc/init.d/ilogtaild start命令,启动LoongCollector。


机器组心跳连接为fail,应该如何处理?

  1. 检查用户标识:如果您的服务器类型不是ECS,或使用的ECSProject属于不同阿里云账号,请根据如下表格检查指定目录下是否存在正确的用户标识。

    系统

    指定目录

    解决方法

    Linux

    /etc/ilogtail/users/

    执行cd /etc/ilogtail/users/ && touch <uid>命令,创建用户标识文件。

    Windows

    C:\LogtailData\users\

    进入C:\LogtailData\users\目录,创建一个名为<uid>的空文件。

    如果指定路径下存在以当前Project所属的阿里云账号ID命名的文件,则说明用户标识配置正确。

  2. 检查机器组标识:如果您使用了用户自定义标识机器组,请检查指定目录下是否存在user_defined_id文件,如果存在请检查该文件中的内容是否与机器组配置的自定义标识一致。

    系统

    指定目录

    解决方法

    Linux

    /etc/ilogtail/user_defined_id

    # 配置用户自定义标识,如目录不存在请手动创建
    echo "user-defined-1" > /etc/ilogtail/user_defined_id

    Windows

    C:\LogtailData\user_defined_id

    C:\LogtailData目录下新建user_defined_id文件,并写入用户自定义标识。(如目录不存在,请手动创建)

  3. 如果用户标识和机器组标识均配置无误,请参考LoongCollector(Logtail)机器组问题排查思路进一步排查。


日志采集无数据

  1. 检查是否有增量日志:配置LoongCollector(Logtail)采集后,如果待采集的日志文件没有新增日志,则LoongCollector(Logtail)不会采集该文件。

  2. 检查机器组心跳状态:前往image资源 > 机器组页面,单击目标机器组名称,在机器组配置 > 机器组状态区域,查看心跳状态。

  3. 确认LoongCollector(Logtail)采集配置是否已应用到机器组:即使LoongCollector(Logtail)采集配置已创建,但如果未将其应用到机器组,日志仍无法被采集。

    1. 前往image资源 > 机器组页面,单击目标机器组名称,进入机器组配置页面。

    2. 在页面中查看管理配置,左侧展示全部Logtail配置,右侧展示已生效Logtail配置。如果目标LoongCollector(Logtail)采集配置已移动到右侧生效区域,则表示该配置已成功应用到目标机器组。

    3. 如果目标LoongCollector(Logtail)采集配置未移动到右侧生效区域,请单击修改,在左侧全部Logtail配置列表中勾选目标LoongCollector(Logtail)配置名称,单击image移动到右侧生效区域,完成后单击保存


采集日志报错或格式错误

排查思路:这种情况说明网络和基础配置是通的,问题主要出在日志内容解析规则不匹配。您需要查看具体的错误信息来定位问题:

  1. Logtail配置页面,单击采集异常的LoongCollector(Logtail)配置名称,在日志采集错误页签下,单击时间选择设置查询时间。

  2. 采集异常监控 > 全量错误信息区域,查看错误日志的告警类型,并根据采集数据常见错误类型查询对应的解决办法。

更多信息

全局配置参数介绍

配置项

说明

配置名称

LoongCollector(Logtail)配置名称,在其所属Project内必须唯一。创建成功后,无法修改其名称。

日志主题类型

选择日志主题(Topic)的生成方式。包含机器组Topic,文件路径提取,自定义三种方式。

高级参数

其它可选的与配置全局相关的高级功能参数,请参见创建LoongCollector(Logtail)流水线配置

输入配置参数介绍

配置项

说明

文件路径

根据日志在主机(例如ECS)上的位置,设置日志目录和文件名称:

目录名和文件名均支持完整模式和通配符模式,文件名规则请参见Wildcard matching。其中,日志路径通配符只支持星号(*)和半角问号(?)。

日志文件查找模式为多层目录匹配,即符合条件的指定目录(包含所有层级的目录)下所有符合条件的文件都会被查找到。例如:

  • /apsara/nuwa/**/*.log表示/apsara/nuwa目录(包含该目录的递归子目录)中后缀名为.log的文件。

  • /var/logs/app_*/**/*.log表示/var/logs目录下所有符合app_*格式的目录(包含该目录的递归子目录)中后缀名为.log的文件。

  • /var/log/nginx/**/access*表示/var/log/nginx目录(包含该目录的递归子目录)中以access开头的文件。

最大目录监控深度

设置日志目录被监控的最大深度,即文件路径中通配符**匹配的最大目录深度。0代表只监控本层目录。

文件编码

选择日志文件的编码格式。

首次采集大小

配置首次生效时,匹配文件的起始采集位置距离文件结尾的大小。首次采集大小设定值为1024 KB。

  • 首次采集时,如果文件小于1024 KB,则从文件内容起始位置开始采集。

  • 首次采集时,如果文件大于1024 KB,则从距离文件末尾1024 KB的位置开始采集。

您可以通过此处修改首次采集大小,取值范围为0~10485760KB。

采集黑名单

打开采集黑名单开关后,可进行黑名单配置,即可在采集时忽略指定的目录或文件。支持完整匹配和通配符匹配目录和文件名。其中,通配符只支持星号(*)和半角问号(?)。

重要
  • 如果您在配置文件路径时使用了通配符,但又需要过滤掉其中部分路径,则需在采集黑名单中填写对应的完整路径来保证黑名单配置生效。

    例如您配置文件路径/home/admin/app*/log/*.log,但要过滤/home/admin/app1*目录下的所有子目录,则需选择目录黑名单,配置目录为/home/admin/app1*/**。如果配置为/home/admin/app1*,黑名单不会生效。

  • 匹配黑名单过程存在计算开销,建议黑名单条目数控制在10条内。

  • 目录路径不能以正斜线(/)结尾,例如将设置路径为/home/admin/dir1/,目录黑名单不会生效。

支持按照文件路径黑名单、文件黑名单、目录黑名单设置,详细说明如下:

文件路径黑名单

  • 选择文件路径黑名单,配置路径为/home/admin/private*.log,则表示在采集时忽略/home/admin/目录下所有以private开头,以.log结尾的文件。

  • 选择文件路径黑名单,配置路径为/home/admin/private*/*_inner.log,则表示在采集时忽略/home/admin/目录下以private开头的目录内,以_inner.log结尾的文件。例如/home/admin/private/app_inner.log文件被忽略,/home/admin/private/app.log文件被采集。

文件黑名单

选择文件黑名单,配置文件名为app_inner.log,则表示采集时忽略所有名为app_inner.log的文件。

目录黑名单

  • 选择目录黑名单,配置目录为/home/admin/dir1,则表示在采集时忽略/home/admin/dir1目录下的所有文件。

  • 选择目录黑名单,配置目录为/home/admin/dir*,则表示在采集时忽略/home/admin/目录下所有以dir开头的子目录下的文件。

  • 选择目录黑名单,配置目录为/home/admin/*/dir,则表示在采集时忽略/home/admin/目录下二级目录名为dir的子目录下的所有文件。例如/home/admin/a/dir目录下的文件被忽略,/home/admin/a/b/dir目录下的文件被采集。

允许文件多次采集

默认情况下,一个日志文件只能匹配一个LoongCollector(Logtail)配置。如果文件中的日志需要被采集多份,需要打开允许文件多次采集开关。

高级参数

其它可选的与文件输入插件相关的高级功能参数,请参见创建LoongCollector(Logtail)流水线配置

处理配置参数介绍

配置项

说明

日志样例

待采集日志的样例,请务必使用实际场景的日志。日志样例可协助您配置日志处理相关参数,降低配置难度。支持添加多条样例,总长度不超过1500个字符。

[2023-10-01T10:30:01,000] [INFO] java.lang.Exception: exception happened
    at TestPrintStackTrace.f(TestPrintStackTrace.java:3)
    at TestPrintStackTrace.g(TestPrintStackTrace.java:7)
    at TestPrintStackTrace.main(TestPrintStackTrace.java:16)

多行模式

  • 多行日志的类型:多行日志是指每条日志分布在连续的多行中,需要从日志内容中区分出每一条日志。

    • 自定义:通过行首正则表达式区分每一条日志。

    • 多行JSON:每个JSON对象被展开为多行,例如:

      {
        "name": "John Doe",
        "age": 30,
        "address": {
          "city": "New York",
          "country": "USA"
        }
      }
  • 切分失败处理方式:

    Exception in thread "main" java.lang.NullPointerException
        at com.example.MyClass.methodA(MyClass.java:12)
        at com.example.MyClass.methodB(MyClass.java:34)
        at com.example.MyClass.main(MyClass.java:½0)

    对于以上日志内容,如果日志服务切分失败:

    • 丢弃:直接丢弃这段日志。

    • 保留单行:将每行日志文本单独保留为一条日志,保留为一共四条日志。

处理模式

处理插件组合,包括原生插件拓展插件。有关处理插件的更多信息,请参见处理插件概述

重要

处理插件的使用限制,请以控制台页面的提示为准。

  • 2.0版本的Logtail:

    • 原生处理插件可任意组合。

    • 原生处理插件和扩展处理插件可同时使用,但扩展处理插件只能出现在所有的原生处理插件之后。

  • 低于2.0版本的Logtail:

    • 不支持同时添加原生插件和扩展插件。

    • 原生插件仅可用于采集文本日志。使用原生插件时,须符合如下要求:

      • 第一个处理插件必须为正则解析插件、分隔符模式解析插件、JSON解析插件、Nginx模式解析插件、Apache模式解析插件或IIS模式解析插件。

      • 从第二个处理插件到最后一个处理插件,最多包括1个时间解析处理插件,1个过滤处理插件和多个脱敏处理插件。

    • 对于解析失败时保留原始字段解析成功时保留原始字段参数,只有以下组合有效,其余组合无效。

      • 只上传解析成功的日志:

        image

      • 解析成功时上传解析后的日志,解析失败时上传原始日志:

        image

      • 解析成功时不仅上传解析后的日志,并且追加原始日志字段,解析失败时上传原始日志。

        例如,原始日志"content": "{"request_method":"GET", "request_time":"200"}"解析成功,追加原始字段是在解析后日志的基础上再增加一个字段,字段名为重命名的原始字段(如果不填则默认为原始字段名),字段值为原始日志{"request_method":"GET", "request_time":"200"}

        image