日志服务已内置告警监控规则,您只需开启对应的告警实例即可实时监控Logtail,并可通过钉钉等渠道接收到告警通知。本文介绍使用Logtail内置告警监控规则的操作步骤。

前提条件

已为目标Project开启重要日志功能。具体操作,请参见开通服务日志

背景信息

当您为目标Project开启重要日志功能后,日志服务会自动在您所选择的Project下创建一个名为internal-diagnostic_log的Logstore,用于记录Logtail心跳日志。日志服务基于该日志预设了Logtail告警监控规则,用于实时监控Logtail。

步骤一:配置行动策略

Logtail内置告警监控规则默认绑定SLS Logtail内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。

  1. 登录日志服务控制台
  2. 在Project列表中,找到目标Project。
    该Project为您在开启重要日志时,所选择的Project。
  3. 在左侧导航栏中,单击告警
  4. 告警中心页面,选择告警管理 > 行动策略
  5. 在行动策略列表中,找到目标行动策略(sls.app.logtail.builtin),单击修改
    您也可以创建新的行动策略用于告警通知。具体操作,请参见创建行动策略
  6. 编辑行动策略对话框中,将请求地址修改为钉钉群机器人的Webhook地址。其他选项,保持默认配置。然后单击确认
    如何获取钉钉群机器人的Webhook地址,请参见钉钉-自定义。您也可以根据业务需求,使用其他告警渠道。具体操作,请参见通知渠道说明

步骤二:开启告警实例

日志服务已内置多种告警监控规则,您只需根据业务需求,开启对应的告警实例即可。

  1. 告警中心页面,单击规则/事务
  2. 规则/事务页签中,单击SLS Logtail
    内置告警监控规则
  3. 在告警监控规则列表中,单击目标告警监控规则对应的开启
    每个告警监控规则已预设参数,您可以直接单击开启。如果您要修改参数设置,可单击设置,进行修改。关于参数说明的更多信息,请参见Logtail告警监控规则

Logtail告警监控规则

日志服务已内置如下告警监控规则,用于监控Logtail。

  • Logtail重启告警
    项目 说明
    作用 监控Logtail的重启行为。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个客户端出现Logtail重启次数超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 重启次数阈值(严重):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发严重级别的告警。默认值为3。
    • 重启次数阈值(高):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发高级别的告警。默认值为1。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • Logtail采集延迟告警
    项目 说明
    作用 监控Logtail的采集延迟。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现Logtail采集延迟时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • Logtail Quota超限告警
    项目 说明
    作用 监控Logtail Quota超限情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现因Quota超限导致Logtail发送数据失败时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • Logtail日志解析错误告警
    项目 说明
    作用 监控Logtail日志解析错误的异常。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当有Logstore出现Logtail日志解析错误时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • 同一Project下的Logtail采集错误数监控
    项目 说明
    作用 监控Logtail采集错误的数量。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 采集错误数量阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量大于该阈值时,触发告警。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • 同一Project下的Logtail采集错误数日同比监控
    项目 说明
    作用 监控Logtail采集错误数量的日同比变化情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 增长率阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • 同一Logstore下的Logtail采集错误数监控
    项目 说明
    作用 监控Logtail采集错误的数量。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 采集错误数量阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量大于该阈值时,触发告警。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
  • 同一Logstore下的Logtail采集错误数日同比监控
    项目 说明
    作用 监控Logtail采集错误数量的日同比变化情况。
    检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。
    触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。
    参数配置
    • 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略
    • 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
    • 增长率阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
    • 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
    • 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
    • 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。