日志服务新版告警是一站式的告警监控、降噪、事务管理、通知分派的智能运维平台。本文介绍日志服务新版告警与各个开源告警系统的对比信息。

日志服务告警

日志服务新版告警支持监控日志、时序等各类数据,支持接收三方告警,支持对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。更多信息,请参见什么是日志服务告警

告警架构

新版告警具备如下五大优势:

优势

与ELK X-Pack告警(ElasticSearch Watcher、Kibana 7.x+Alert)对比

自建ELK使用开源的ElasticSearch+Logstash+Kibana组合,其不包括告警功能。如果您要为自建ELK配置告警,需额外购买X-Pack商业包,其包含两个告警功能(ElasticSearch Watcher和Kibana 7.x+Alert)。这两个告警功能互相独立,不能协同与关联。

类别 对比项 日志服务告警 ELK X-Pack告警
持久性 告警服务可用性 服务可用性>99.9%、存储持久性>99.99999999%。 商业版采用分布式,存储数据需要手动配置。
成本 费用 无订阅费用、免运维、监控与告警管理免费、通知渠道仅短信和语音按照条数收取少量费用。 商业订阅费用、人工运维费用、自购的机器费用、三方短信和语音费用。
告警监控 监控日志和时序数据的规模 PB级别。 TB级别。
监控查询分析语法 支持SQL92语法(含扩展)、PromQL语法、告警语法扩展。
  • ElasticSearch Watcher:支持ES DSL。
  • Kibana 7.x+Alert:支持有限的过滤聚集操作。
机器学习能力 支持十多种预测、异常检测、根因分析等AI算法。 支持X-Pack ML算法。
数据协同能力 支持跨存储库、跨Project、跨地域、跨账号协同监控。 支持同一集群下的同构索引合并分析。
无数据告警 支持。 不支持。
告警恢复 支持。 不支持。
标签与标注 支持。 Kibana 7.x+Alert支持自定义标签。
动态严重度 支持。 不支持。
分组评估 支持,可自定义配置。
  • ElasticSearch Watcher:固定不分组。
  • Kibana 7.x+Alert:固定自动分组。
监控侧控制
  • 支持配置持续触发阈值。
  • 支持暂停和自动恢复(基于时间)监控。
ElasticSearch Watcher支持暂停和自动恢复(基于ACK)。
告警管理 告警管理
  • 支持告警去重、合并、抑制、静默。
  • 支持事务管理、责任人设置。
不支持。
通知管理 通知管理 支持通知渠道动态分派、告警级别提升、接收组管理、渠道日历设置、值班表设置、渠道额度控制。 不支持。
常用渠道 支持短信、语音、钉钉、邮件、WebHook、阿里云消息中心等通知渠道。

其中通过WebHook,还支持企业微信、飞书、Slack等渠道。

支持邮件、WebHook等通知渠道,不支持短信和语音。
  • Watcher支持PagerDuty、JIRA、Slack。
  • Kibana Alert支持IBM Resilient、MS Teams、Service Now。

与Prometheus&Loki(含AlertManager)告警对比

自建Prometheus&Loki使用开源的Prometheus+Loki+AlertManager组合搭建告警监控系统,其中Prometheus Alert对时序数据进行告警监控,Loki对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理。

类别 对比项 日志服务告警 Prometheus+Loki 2.0告警
持久性 告警服务可用性 服务可用性>99.9%、存储持久性>99.99999999%。 部分服务采用分布式、部分服务采用单机可用性;存储采用单机可用性。
成本 费用 无订阅费用、免运维、监控与告警管理免费、通知渠道仅短信和语音按照条数收取少量费用。 人工运维费用、自购的机器费用、三方短信和语音费用。
告警监控 监控日志和时序数据的规模 PB级别。
  • 日志:百GB级别。
  • 时序数据:TB级别。
监控查询分析语法 支持SQL92语法(含扩展)、PromQL语法、告警语法。
  • 日志:LogQL语法。
  • 时序数据:PromQL语法。
机器学习能力 支持十多种预测、异常检测、根因分析等AI算法。 不支持。
数据协同能力 支持跨存储库、跨Project、跨地域、跨账号协同监控。 支持同一集群下跨指标PromQL Join。
无数据告警 支持。 不支持。
告警恢复 支持。 支持。
标签与标注 支持。 支持。
动态严重度 支持。 不支持。
分组评估 支持,可自定义配置。 支持按标签固定分组。
监控侧控制
  • 支持配置持续触发阈值。
  • 支持暂停和自动恢复(基于时间)监控。
支持设置持续触发阈值,不支持暂停与恢复监控。
告警管理 告警管理
  • 支持告警去重、合并、抑制、静默。
  • 支持事务管理、责任人设置。
支持告警去重、合并、抑制、静默,不支持事务管理、责任人管理。
通知管理 通知管理 支持通知渠道动态分派、告警级别提升、接收组管理、渠道日历设置、值班表设置、渠道额度控制。 仅支持渠道动态分派,其他不支持。
常用渠道 支持短信、语音、钉钉、邮件、WebHook、阿里云消息中心等通知渠道。

其中通过WebHook,还支持企业微信、飞书、Slack等渠道。

支持邮件、企业微信、WebHook(不支持自定义Body)、PagerDuty、PushOver、Slack、OpsGenie、VictorOps。不支持短信、语音服务。

通过三方插件,也可以支持钉钉、飞书、Slack等渠道。

与InfluxDB 2.0告警(含Kapacitor)告警对比

自建InfluxDB使用开源的InfluxDB OSS 2.0+Kapacitor组合搭建告警监控系统。如果您需要集群部署功能,还需要购买InfluxDB商业版。该方案仅适用于时序数据的告警监控。

类别 对比项 日志服务告警 InfluxDB 2.0 告警(含Kapacitor)
持久性 告警服务可用性 服务可用性>99.9%、存储持久性>99.99999999%。 商业版采用分布式,支持存储配置。开源采用单机版。
成本 费用 无订阅费用、免运维、监控与告警管理免费、通知渠道仅短信和语音按照条数收取少量费用。 商业版订阅费用、人工运维费用、自购的机器费用、三方短信和语音费用。
告警监控 监控日志和时序数据的规模 PB级别。
  • 日志:不支持。
  • 时序数据:TB级别。
监控查询分析语法 支持SQL92语法(含扩展)、PromQL语法、告警语法扩展。 支持Flux语法。
机器学习能力 支持十多种预测、异常检测、根因分析等AI算法。 支持Loud ML算法。
数据协同能力 支持跨存储库、跨Project、跨地域、跨账号协同监控。 支持单集群下跨Bucket Flux Join。
无数据告警 支持。 不支持。
告警恢复 支持。 不支持。
标签与标注 支持。 支持设置简单的标签。
动态严重度 支持。 支持。
分组评估 支持,可自定义配置。 不支持。
监控侧控制
  • 支持配置持续触发阈值。
  • 支持暂停和自动恢复(基于时间)监控。
不支持。
告警管理 告警管理
  • 支持告警去重、合并、抑制、静默。
  • 支持事务管理、责任人设置。
仅支持告警抑制,其他不支持。
通知管理 通知管理 支持通知渠道动态分派、告警级别提升、接收组管理、渠道日历设置、值班表设置、渠道额度控制。 仅支持通知渠道动态分派,其他不支持。
常用渠道 支持短信、语音、钉钉、邮件、WebHook、阿里云消息中心等通知渠道。

其中通过WebHook,还支持企业微信、飞书、Slack等渠道。

支持邮件、WebHook(不支持灵活自定义Body)、exec、PagerDuty、PushOver、Slack、OpsGenie、VictorOps、HipChat等通知渠道。不支持短信、语音服务。