日志服务已内置告警监控规则,您只需开启对应的告警实例即可实时监控Logtail,并可通过钉钉等渠道接收到告警通知。本文介绍使用Logtail内置告警监控规则的操作步骤。
前提条件
背景信息
步骤一:配置行动策略
Logtail内置告警监控规则默认绑定SLS Logtail内置行动策略,因此您在开启告警实例前,需先在该行动策略中设置对应的通知渠道。
步骤二:开启告警实例
日志服务已内置多种告警监控规则,您只需根据业务需求,开启对应的告警实例即可。
Logtail告警监控规则
日志服务已内置如下告警监控规则,用于监控Logtail。
- Logtail重启告警
- Logtail采集延迟告警
- Logtail Quota超限告警
- Logtail日志解析错误告警
- 同一Project下的Logtail采集错误数监控
- 同一Project下的Logtail采集错误数日同比监控
- 同一Logstore下的Logtail采集错误数监控
- 同一Logstore下的Logtail采集错误数日同比监控
- Logtail重启告警
项目 说明 作用 监控Logtail的重启行为。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当同一个客户端出现Logtail重启次数超过设定的阈值时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 重启次数阈值(严重):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发严重级别的告警。默认值为3。
- 重启次数阈值(高):过去5分钟内,当同一个客户端出现Logtail重启次数大于该阈值时,则触发高级别的告警。默认值为1。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- Logtail采集延迟告警
项目 说明 作用 监控Logtail的采集延迟。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当有Logstore出现Logtail采集延迟时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- Logtail Quota超限告警
项目 说明 作用 监控Logtail Quota超限情况。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当有Logstore出现因Quota超限导致Logtail发送数据失败时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- Logtail日志解析错误告警
项目 说明 作用 监控Logtail日志解析错误的异常。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当有Logstore出现Logtail日志解析错误时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- 同一Project下的Logtail采集错误数监控
项目 说明 作用 监控Logtail采集错误的数量。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量超过设定的阈值时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 采集错误数量阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量大于该阈值时,触发告警。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- 同一Project下的Logtail采集错误数日同比监控
项目 说明 作用 监控Logtail采集错误数量的日同比变化情况。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 增长率阈值:过去5分钟内,当同一个Project出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- 同一Logstore下的Logtail采集错误数监控
项目 说明 作用 监控Logtail采集错误的数量。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量超过设定的阈值时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 采集错误数量阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量大于该阈值时,触发告警。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。
- 同一Logstore下的Logtail采集错误数日同比监控
项目 说明 作用 监控Logtail采集错误数量的日同比变化情况。 检测频率&检测时间范围 每5分钟检测一次过去5分钟内的数据。 触发条件 过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率超过设定的阈值时,触发告警。 参数配置 - 行动策略:当前告警监控规则所绑定的行动策略,日志服务将通过该行动策略给指定用户发送告警通知。默认值为SLS Logtail内置行动策略(sls.app.logtail.builtin),您也可以修改或新建行动策略。具体操作,请参见创建行动策略。
- 严重度:告警的严重度,包括严重、高、中、低和报告。默认值为中。
- 增长率阈值:过去5分钟内,当同一个Logstore出现Logtail采集错误数量同比昨日增长率大于该阈值时,触发告警。
- 静默期:告警静默期,即设置重复通知的间隔。重复的告警在静默期内不会被重复通知。例如1d(1天)、2h(2小时)、3m(3分钟)。
- 恢复通知:监控对象恢复正常时,日志服务将以告警通知形式发送一条恢复通知。
- 连续触发阈值:连续多少次执行检查评估都满足触发条件时,才会触发告警。