日志服务SLS告警作为一站式运维告警平台,为OSS的访问提供了定制化的告警规则。您只需要在日志服务控制台进行简单配置,即可完成对OSS访问指标的监控,并在指标出现异常时及时收到告警通知。
场景描述
客户A是一家多媒体公司,主要产品有短视频App。用户可以在上面发布和观看短视频。客户A使用了OSS中名为examplebucket的存储空间来存储用户产生的短视频,App每天的用户活动具有一定的周期性,一般情况下深夜的PV较低,其他时段PV较高。
每天9点~10点之间的PV访问基本持平。例如每月5号9点~10点的PV是50万,6号9点~10点的PV是51万可以理解为正常波动。如果6号9~10点的PV出现陡增至100万或者陡降至20万的情况,您可以通过创建日志服务告警规则,指定在某个时间段内PV陡增或者陡降20%时发出告警,并通过钉钉机器人推送告警信息。
前提条件
已为目标存储空间examplebucket开启实时日志查询并记录生成的Project名称。
开启实时日志查询后,日志服务将自动生成名为oss-log-store
的Logstore,该Logstore保存在格式为oss-log-阿里云账号ID-region
的Project下。请记录生成的Project名称,用于配置后续的通知渠道及告警阈值。开启实时日志查询的具体步骤,请参见查询实时日志。
操作步骤
通过SLS OSS内置行动策略设置告警触发后的通知渠道。
登录日志服务控制台。
在Project列表区域,单击目标Project。
在左侧导航栏中,单击告警。
在告警中心页面,选择
。在行动策略页面,单击SLS内置行动策略名右侧的修改。
在第一行动列表页签,渠道选择钉钉自定义,然后将请求地址修改为钉钉群的机器人WebHook地址。其他选项,保留默认配置。
单击确认。
设置触发告警阈值。
在告警规则页签,新建告警下拉选择从模版新建。
单击OSS监控,然后单击OSS访问PV同比昨日变化率过高告警,触发条件选择有数据匹配,表达式修改为(change_rate >= 0 && change_rate > 20) || (change_rate < 0 && (-1) * change_rate > 20),其他参数保留默认配置。
单击确定。
满足以上触发条件时,将发送告警通知。
常见问题
问题描述:告警渠道选择钉钉机器人,但是钉钉通知发送失败,且出现如下错误。
{"errcode":310000,"errmsg":"sign not match"}
{"errcode":310000,"errmsg":"keywords not in content"}
问题原因:机器人的安全设置有误,导致通知被钉钉拦截。
解决方法:将安全设置配置为自定义关键字,其中一个关键字设置为“告警”,因为通知内容中至少包含其中1个关键字才可以发送成功。配置详情,请参见钉钉-自定义。