【最佳实践】优化行动策略使用的一些方法

简介: 背景随着使用SLS告警越来越深入,有些用户的行动策略会配置的特别复杂,有些时候可以让用户通过创建多个行动策略来进行一定的精简,但是在一些场景下,用户是无法创建多个行动策略的。例如用户想要通过SLS来统一管理其各个监控系统的告警,所以采用了SLS的开放告警功能,这种情况下,用户一般一个监控系统就只会创...

背景

随着使用SLS告警越来越深入,有些用户的行动策略会配置的特别复杂,有些时候可以让用户通过创建多个行动策略来进行一定的精简,但是在一些场景下,用户是无法创建多个行动策略的。例如用户想要通过SLS来统一管理其各个监控系统的告警,所以采用了SLS的开放告警功能,这种情况下,用户一般一个监控系统就只会创建一个开放告警应用,也就只能对应一个行动策略,所以随着需要动态分派告警的各种情况增多,行动策略就会急剧膨胀,从而出现以下情况:

  • 在控制台无法保存

  • 在前端修改时加载过于卡顿

  • 告警延迟增加

因此,对于上述问题,本文介绍了三种优化的方案。

方案对比

利用告警策略拆分行动策略

使用SDK压缩行动策略内容

使用动态接收人

适用场景

适用于熟悉告警策略,并且告警的标签和标注特征明显的情况

优点:管理清晰、不容易出错

缺点:配置麻烦

适用于对告警SDK使用熟练,并且熟悉告警相关DSL语法的用户

优点:可以极大地精简行动策略

缺点:学习成本高,容易出错

适用有自己的企业用户管理系统,或者无法在行动策略分派的情况

优点:SLS侧配置简洁

缺点:用户需要实现一个提供动态分派通知人能力的webhook服务,并且只支持短信、语音和邮件通知渠道

利用告警策略拆分行动策略

告警策略在配置路由合并策略的时候,是可以按照告警的一些信息采用不同分组合并的,而不同的分组合并又可以选择不同的行动策略,所以手动将每个分组合并的其余配置全部改为和默认告警策略的一致,那么就可以实现拆分行动策略的目的了。(默认告警策略的分组合并中,合并基准选择自定义,告警属性选择告警规则ID和规则所在项目,告警标签选择所有,首次等待选择1秒,变化等待选择15秒,重复等待选择1分钟)

如下图所示,如果使用一个行动策略的话,那么该行动策略中既要考虑标签中appName为app0的情况,还要考虑appName为app1的情况,按照下图所示的方法拆分后,那么行动策略0中只需要考虑appName为app0的情况,行动策略1中只需要考虑appName为app1的情况,这样就完成了对行动策略的拆分。

image.png

最后,在创建告警监控规则或者开放告警应用的时候选择上面创建的告警策略即可。

image.png

使用SDK压缩行动策略内容

SLS的控制台在配置行动策略的时候,由于需要保存节点的一些UI信息,那么在存储行动策略时的配置内容就会特别大,容易超出资源数据的大小限制,从而导致从控制台上无法保存。如果是通过SDK管理行动策略的话,那么可以省去控制台上那些额外的UI信息,这个行动策略的大小就会变小很多。例如通过以下代码创建一个行动策略。

package main

import (
	"fmt"

	sls "github.com/aliyun/aliyun-log-go-sdk"
)

var (
	// 日志服务的服务入口。创建资源必须是河源区域。
	endpoint = "cn-heyuan.log.aliyuncs.com"
	// 阿里云访问密钥AccessKey。更多信息,请参见访问密钥。阿里云账号AccessKey拥有所有API的访问权限,风险很高。强烈建议您创建并使用RAM用户进行API访问或日常运维。
	accessKeyId     = ""
	accessKeySecret = ""
	// 创建日志服务Client。
	client = sls.CreateNormalInterface(endpoint, accessKeyId, accessKeySecret, "")
)

func main() {
	actionPolicy := &sls.ResourceActionPolicy{
		ActionPolicyId:              "test-action-policy",
		ActionPolicyName:            "Test Action Policy",
		PrimaryPolicyScript:         "if alert.labels.appName == \"app0\":\n    fire(type=\"sms\", users=[\"user1\"], groups=[], oncall_groups=[], receiver_type=\"static\", external_url=\"\", external_headers={}, template_id=\"sls.builtin.cn\", check_quota=\"true\", period=\"any\")\n    stop()\nif alert.labels.appName == \"app1\":\n    fire(type=\"email\", users=[\"user2\"], groups=[], oncall_groups=[], receiver_type=\"static\", external_url=\"\", external_headers={}, template_id=\"sls.builtin.cn\", check_quota=\"true\", period=\"any\")\n    stop()\nfire(type=\"webhook_integration\", integration_type=\"dingtalk\", webhook_id=\"user3\", template_id=\"sls.builtin.cn\", period=\"any\")",
		SecondaryPolicyScript:       "",
		EscalationStartTimeout:      "10m",
		EscalationInprogressEnabled: false,
		EscalationInprogressTimeout: "30m",
		EscalationEnabled:           true,
		EscalationTimeout:           "1h",
	}
	record := &sls.ResourceRecord{
		Id:    actionPolicy.ActionPolicyId,
		Tag:   actionPolicy.ActionPolicyName,
		Value: sls.JsonMarshal(actionPolicy),
	}
	err := client.CreateResourceRecord("sls.alert.action_policy", record)
	fmt.Println("[create action policy]", err)
}

第一列行动策略对应的DSL语法的脚本展开如下:

if alert.labels.appName == "app0":
    fire(type="sms", users=["user1"], groups=[], oncall_groups=[], receiver_type="static", external_url="", external_headers={}, template_id="sls.builtin.cn", check_quota="true", period="any")
    stop()
if alert.labels.appName == "app1":
    fire(type="email", users=["user2"], groups=[], oncall_groups=[], receiver_type="static", external_url="", external_headers={}, template_id="sls.builtin.cn", check_quota="true", period="any")
    stop()
fire(type="webhook_integration", integration_type="dingtalk", webhook_id="user3", template_id="sls.builtin.cn", period="any")

创建好了以后,在控制台上点击编辑创建好的行动策略如下图所示。通过SDK创建的行动策略没有UI信息,但是依然可以正常运行。

image.png

上述的行动策略对应的有UI信息的行动策略如下图所示。

image.png

使用动态接收人

SLS提供了动态接收人功能,可以通过Webhook服务设置告警通知的动态接收人。该Webhook服务办不仅可以按照SLS的用户模型返回需要通知告警的联系人方式,还可以进行告警的动态分派,实现与行动策略相同的能力,不仅如此,由于行动策略无法支持按照特殊内容(例如告警的fire_results字段)进行动态分派,因此在这种情况下就必须使用动态接收人的方式了。

如下图所示,使用动态接收人后,行动策略就只需要一个行动节点,从而变得简洁。

image.png

参考文档

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
测试技术
性能场景之压测策略设计
【2月更文挑战第19天】性能场景之压测策略设计
295 4
性能场景之压测策略设计
|
4天前
|
敏捷开发 缓存 Devops
构建高效持续集成系统的策略与实践
【4月更文挑战第23天】 在快速迭代的软件开发过程中,持续集成(CI)是确保代码质量和加速交付的关键。本文深入探讨了构建和维护一个高效CI系统的方法和最佳实践。从自动化测试到部署策略,文中细致分析了各环节的优化技巧,并提供了解决常见问题的实用建议。通过案例研究和工具选型,读者将获得构建强大CI流程的具体指导,以支持敏捷和DevOps环境下的高质量软件发布。
|
5天前
|
设计模式 算法 Java
优化Java应用性能的六大策略
提升Java应用性能是每个开发者都追求的目标,而实现这一目标需要综合考虑多个方面的因素。本文将介绍六大有效的策略,帮助开发者优化Java应用性能,包括内存管理、并发控制、代码优化等方面,旨在提供实用的指导和方法,使Java应用更加高效稳定。
|
7天前
|
缓存 算法 测试技术
优化 C#编程性能的策略
【4月更文挑战第20天】优化C#性能策略包括:选择合适算法和数据结构,避免频繁对象创建,缓存常用数据,减少内存分配,使用异步编程,优化数据库操作(如合理查询和使用索引),利用多线程并行处理,精简代码,使用性能分析工具,硬件升级,以及进行性能测试。综合应用这些策略可提升程序性能和响应性。
|
1月前
|
存储 缓存 安全
【C/C++ 项目优化实战】 分享几种基础且高效的策略优化和提升代码性能
【C/C++ 项目优化实战】 分享几种基础且高效的策略优化和提升代码性能
65 0
|
4月前
|
机器学习/深度学习 算法 测试技术
RAG应用程序的12种调优策略:使用“超参数”和策略优化来提高检索性能
本文从数据科学家的角度来研究检索增强生成(retrieve - augmented Generation, RAG)管道。讨论潜在的“超参数”,这些参数都可以通过实验来提高RAG管道的性能。与本文还将介绍可以应用的不同策略,这些策略虽然不是超参数,但对性能也会产生很大的影响。
220 1
|
9月前
|
SQL 存储 缓存
18种接口实用优化方案总结
18种接口实用优化方案总结
105 0
|
9月前
|
SQL 存储 关系型数据库
提升SQL查询性能:深入理解和策略实践
1. 使用索引   索引是一个用于快速查询和检索数据的数据库结构。你可以将其想象成一本书的目录,它可以让数据库引擎不必扫描整个表,而是直接定位到所需的数据,从而大大提高查询的性能。以下是几种索引类型:
119 0
|
11月前
|
Arthas 缓存 运维
如何设计高效的基准场景?揭秘大厂的实战策略!
RESAR性能工程中,场景分为基准、容量、稳定性、异常。每类场景对应不同目标。 基准场景是为找到系统中明显配置及软件Bug,也为容量场景提供可对比的基准数据。基准场景要有确定结论。
117 0
|
存储 监控 NoSQL
操作的最佳实践
操作的最佳实践
85 0