全部产品
云市场

监控指标及报警

更新时间:2019-09-04 14:11:49

相关概念

运行指标

智能推荐将实例的动态情况汇总计算产生的关于实例状态的数据指标。智能推荐系统持续的产生指标,用户不需要关心指标的计算流程。

云监控

阿里云平台的产品。智能推荐将计算好的运行指标同步到云监控,用户通过云监控控制台查看指标,并且可以添加报警,购买了智能推荐产品的用户可以免费试用云监控查看相关运行指标。

Dashboard

云监控展示指标的页面,一个Dashboard可以展示多个指标,并且可以编辑指标图表的大小和位置。

图表

运行指标的展示形式,一个图表可以对应多个指标。

指标列表

目前智能推荐计算汇总以下指标。

指标 单位 指标计算周期 含义
查询请求量 QPS 1分钟 计算周期内,平均每秒钟的推荐请求个数
推荐接口平均延时 1分钟 推荐请求的平均响应时间
查询限流请求量 QPS 1分钟 平均每秒钟因为限流失败的请求个数
User表使用比率 百分比 10分钟 截止到统计当时,User表实际上传数量和购买限额的比率
Item表使用比率 百分比 10分钟 截止到统计当时,Item表实际上传数量和购买限额的比率
User推送速率 Count/Second 1分钟 平均每秒钟User上传个数(所有上传命令都计数)
Item推送速率 Count/Second 1分钟 平均每秒钟Item上传个数(所有上传命令都计数)
Behavior推送速率 Count/Second 1分钟 平均每秒钟Behavior上传个数(所有上传命令都计数)
User推送失败速率 Count/Second 1分钟 平均每秒钟User上传失败的个数(所有上传命令都计数)
Item推送失败速率 Count/Second 1分钟 平均每秒钟Item上传失败的个数(所有上传命令都计数)
Behavior推送失败速率 Count/Second 1分钟 平均每秒钟Behavior上传失败的个数(所有上传命令都计数)
行为数据平均延迟 1分钟 行为数据的bhv_time和上传时间间隔的平均值;用于反映行为上传的延时情况

建议的报警规则如下:

报警名称 报警条件 备注
查询限流QPS >0 检查购买QPS限额和实际限额
User表使用比率 >90 检查购买配额和实际上传数
Item表使用比率 >90 检查购买配额和实际上传数
行为数据延迟 >7200 行为数据上传有延时,影响推荐效果

操作步骤

云监控控制台

使用创建智能推荐实例所使用的账号,登陆云监控控制台;找到监控大盘编辑菜单。如图所示。
自定义大盘

创建监控大盘

点击“创建监控大盘”,输入自定义的大盘名称,如果该账号下创建了多个实例,建议每个实例一个监控大盘。
创建监控大盘

添加指标图表

为关注的指标添加图标,建议每个指标都添加图表,添加图表的步骤如下:

  1. 点击添加图标
  2. 选择智能推荐产品
  3. 选择指标
  4. 输入图表名称(在大盘里面作为图表的标识)
  5. 选择实例
  6. 以上步骤完成之后,点击发布,图表将展示在大盘上添加图表

大盘布局调整

大盘可以自由调整每个图表的大小和布局。我们建议按照以下方式进行排列。
布局
布局2
布局3

添加报警

在云监控控制台,添加报警规则,报警规则入口如下:
添加报警
报警规则配置如下图:
报警规则