您可以在控制台上配置相应的报警规则,以便发生报警时及时处理。
相关概念
运行指标
智能推荐将实例的动态情况汇总计算产生的关于实例状态的数据指标。智能推荐系统持续的产生指标,用户不需要关心指标的计算流程。
云监控
阿里云平台的产品。智能推荐将计算好的运行指标同步到云监控,用户通过云监控控制台查看指标,并且可以添加报警,购买了智能推荐产品的用户可以免费试用云监控查看相关运行指标。
Dashboard
云监控展示指标的页面,一个Dashboard可以展示多个指标,并且可以编辑指标图表的大小和位置。
图表
运行指标的展示形式,一个图表可以对应多个指标。
子账号授权
默认情况下,子账号没有权限查看云监控指标的权限;如果需要使用子账号查看权限,需要登录主账号对子账号授权,授权操作请参考授权日志监控。
快速查看实例指标
智能推荐提供了快速查看实例全部指标的方法。通过智能推荐实例所使用的账号,登录云监控控制台;按照下图所示方法,选择需要查看指标的实例。
指标列表
目前智能推荐计算汇总以下指标。举例说明:Behavior推送失败的速率(例:①20分钟内行为数据推送失败的次数②>= ③N次/秒,其中划线处的三处参数可调);
指标 | 单位 | 指标计算周期 | 含义 |
查询请求量 | QPS | 1分钟 | 计算周期内,平均每秒钟的推荐请求个数 |
推荐接口平均延时 | 秒 | 1分钟 | 推荐请求的平均响应时间 |
查询限流请求量 | QPS | 1分钟 | 平均每秒钟因为限流失败的请求个数 |
User表使用比率 | 百分比 | 10分钟 | 截止到统计当时,User表实际上传数量和购买限额的比率 |
Item表使用比率 | 百分比 | 10分钟 | 截止到统计当时,Item表实际上传数量和购买限额的比率 |
User推送速率 | Count/Second | 1分钟 | 平均每秒钟User上传个数(所有上传命令都计数) |
Item推送速率 | Count/Second | 1分钟 | 平均每秒钟Item上传个数(所有上传命令都计数) |
Behavior推送速率 | Count/Second | 1分钟 | 平均每秒钟Behavior上传个数(所有上传命令都计数) |
User推送失败速率 | Count/Second | 1分钟 | 平均每秒钟User上传失败的个数(所有上传命令都计数) |
Item推送失败速率 | Count/Second | 1分钟 | 平均每秒钟Item上传失败的个数(所有上传命令都计数) |
Behavior推送失败速率 | Count/Second | 1分钟 | 平均每秒钟Behavior上传失败的个数(所有上传命令都计数) |
行为数据平均延迟 | 秒 | 1分钟 | 行为数据的bhv_time和上传时间间隔的平均值;用于反映行为上传的延时情况 |
建议的报警规则如下:
报警名称 | 报警条件 | 备注 |
查询限流QPS | >0 | 检查购买QPS限额和实际限额 |
User表使用比率 | >90 | 检查购买配额和实际上传数 |
Item表使用比率 | >90 | 检查购买配额和实际上传数 |
行为数据延迟 | >7200 | 行为数据上传有延时,影响推荐效果 |
具体配置步骤
用主账号/授权的子账号可按下述步骤操作:1、 进入Airec控制台的概览页面,在右上方是“报警历史”的展示区域,历史报警的信息会展示在这里。如还没配置报警规则,请点击“去配置报警规则”。
2、点击创建报警规则
3、 关联资源资源范围一栏选择全部实例,则当前阿里云账号下任何Airec的实例满足报警规则描述时,都会发送报警通知。选择指定的实例,则选中的实例满足报警规则描述时,才会发送报警通知。创建分组维度规则,已经迁移到分组的组内资源页面。
4、设置报警规则其中通道沉默周期指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
5、报警通知方式
云监控其他功能
自定义Dashboard
云监控控制台
使用创建智能推荐实例所使用的账号,登录云监控控制台;找到监控大盘编辑菜单。如图所示。
创建监控大盘
点击“创建监控大盘”,输入自定义的大盘名称,如果该账号下创建了多个实例,建议每个实例一个监控大盘。
添加指标图表
为关注的指标添加图标,建议每个指标都添加图表,添加图表的步骤如下:
点击添加图标
选择智能推荐产品
选择指标
输入图表名称(在大盘里面作为图表的标识)
选择实例
以上步骤完成之后,点击发布,图表将展示在大盘上
大盘布局调整
大盘可以自由调整每个图表的大小和布局。我们建议按照以下方式进行排列。