本文介绍日志服务告警功能的应用场景。

开发运维(DevOps)

开发人员通过日志服务告警功能监控产品开发生命周期的各个阶段,及时识别代码修改、发布所引起的错误或异常,并及时响应。告警功能还支持对已接入到日志服务的基础环境日志(例如K8s输出日志、事件等)和应用日志等进行监控,当发现各个环境(开发、预发或线上)的版本错误或指标异常(例如延迟、抖动等)时,及时通知给特定的开发人员。

日志审计服务、SLB日志中心等日志服务应用中内置了告警监控任务的规则模板,可简化开发人员部分监控任务的构建工作。

IT运维(ITOps)

IT运维人员需要确保整个IT基础设施的可靠性与稳定性。企业或组织将内部系统的日志或指标数据接入日志服务后,IT运维人员可通过告警功能对稳定性指标(例如响应时间、负载、错误率等)和其他潜在错误进行实时监控,及时识别异常并响应(24×7的值班)。告警功能还支持根据特定的维度对告警事件进行降噪、合并和动态分派,根据值班表和日历等智能规划当前负责人,并部分工作流程的自动化处理。例如支持故障恢复通知与状态更新、故障未及时处理自动升级告警等。

智能运维(AIOps)

开发人员和IT运维人员可结合使用日志服务的机器学习服务和告警功能,对海量的日志、时序数据进行智能监控,包括智能聚类、异常检测、异常预测等。日志服务的查询与分析功能提供了十多种行业领先的机器学习算法,包括单时序数据的多种平滑操作、预测与分解操作,多时序的聚类,多字段的模式挖掘等,可以直接应用在告警监控任务中。更多信息,请参见机器学习函数机器学习服务提供了业界领先的流式统计或图算法进行异常检测,可以有效识别时序数据的异常,并直接发送异常给告警系统进行告警事件的进一步管理。更多信息,请参见机器学习服务智能运维

安全运维(SecOps)

企业或组织将内部系统中审计和安全相关的数据、事件接入到日志服务后,安全运维人员可通过告警功能进行持续监控,识别来自于内部或外部的安全合规异常、安全威胁事件。告警系统可自动根据安全事件的等级、来源等进行通知,并支持部分工作流程的自动化处理。例如基于告警大盘进一步构建安全态势大盘。

日志服务中的日志审计服务支持跨账号自动化采集主要的阿里云产品的合规与安全类的日志、事件,自动集成威胁情报系统和告警系统,提供近百个合规与安全类的监控规则模板,帮助安全运维人员更快速的开启安全运维工作。更多信息,请参见日志审计服务

商务运维(BizOps)

企业或组织将内部系统中数据、指标接入到日志服务后,商务运营人员(包括市场、客户运营、财务人员等)可通过告警功能对各种数据或指标(例如用户数、活跃度、广告点击率、云产品账单等)进行持续监控,识别指标的变化情况或异常(例如异常费用)并响应,以提升运营效率、减少业务风险或财务风险。

日志服务中的成本管家支持自动导入阿里云账单,并内置告警系统,提供几十种云产品预算或异常花费告警监控规则模板,简化财务人员相关的运营工作。更多信息,请参见成本管家