使用日志服务告警为您的OSS保驾护航

日志服务SLS告警作为一站式运维告警平台,为OSS的访问提供了定制化的告警规则。您只需要在日志服务控制台进行简单配置,即可完成对OSS访问指标的监控,并在指标出现异常时及时收到告警通知。

场景描述

客户A是一家多媒体公司,主要产品有短视频App。用户可以在上面发布和观看短视频。客户A使用了OSS中名为examplebucket的存储空间来存储用户产生的短视频,App每天的用户活动具有一定的周期性,一般情况下深夜的PV较低,其他时段PV较高。

每天9点~10点之间的PV访问基本持平。例如每月59点~10点的PV50万,69点~10点的PV51万可以理解为正常波动。如果69~10点的PV出现陡增至100万或者陡降至20万的情况,您可以通过创建日志服务告警规则,指定在某个时间段内PV陡增或者陡降20%时发出告警,并通过钉钉机器人推送告警信息。

前提条件

已为目标存储空间examplebucket开启实时日志查询并记录生成的Project名称。

说明

开启实时日志查询后,日志服务将自动生成名为oss-log-storeLogstore,该Logstore保存在格式为oss-log-阿里云账号ID-regionProject下。请记录生成的Project名称,用于配置后续的通知渠道及告警阈值。开启实时日志查询的具体步骤,请参见查询实时日志

操作步骤

  1. 通过SLS OSS内置行动策略设置告警触发后的通知渠道。

    1. 登录日志服务控制台

    2. Project列表区域,单击目标Project。

    3. 在左侧导航栏中,单击告警

    4. 告警中心页面,选择通知策略 > 行动策略

    5. 行动策略页面,单击SLS内置行动策略名右侧的修改

    6. 第一行动列表页签,渠道选择钉钉自定义,然后将请求地址修改为钉钉群的机器人WebHook地址。其他选项,保留默认配置。

      关于如何获取WebHook地址的具体操作,请参见钉钉-自定义。同时,日志服务支持多种通知渠道,例如通过短信、语音、邮件等形式推送给指定用户或用户组。详情请参见通知渠道说明

    7. 单击确认

  2. 设置触发告警阈值。

    1. 告警规则页签,新建告警下拉选择从模版新建

    2. 单击OSS监控,然后单击OSS访问PV同比昨日变化率过高告警,触发条件选择有数据匹配,表达式修改为(change_rate >= 0 && change_rate > 20) || (change_rate < 0 && (-1) * change_rate > 20),其他参数保留默认配置。

    3. 单击确定

  3. 满足以上触发条件时,将发送告警通知。

常见问题

问题描述:告警渠道选择钉钉机器人,但是钉钉通知发送失败,且出现如下错误。

{"errcode":310000,"errmsg":"sign not match"}
{"errcode":310000,"errmsg":"keywords not in content"}

问题原因:机器人的安全设置有误,导致通知被钉钉拦截。

解决方法:将安全设置配置为自定义关键字,其中一个关键字设置为“告警”,因为通知内容中至少包含其中1个关键字才可以发送成功。配置详情,请参见钉钉-自定义