全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
推荐引擎

运维和运营

更新时间:2017-06-07 13:26:11

告警监控

作为生产系统,RecEng需要能够及时发现系统中的异常并给出告警。RecEng目前主要支持三种异常的告警:

1.对计算过程中的异常给出告警。如运行出错这样的异常,这种告警由RecEng的任务调度系统发出

2.对数据中出现的问题进行告警。如空值比例太高,或存在不符合业务逻辑的数据等等,这种告警由RecEng的质检算法发出

3.客户自定义告警。客户可以在自定义离线算法中自定义告警

RecEng的告警基于阿里云提供的云监控服务,目前RecEng和云监控服务两个产品相对独立,客户需要自行开通并配置云监控服务,获得云监控服务的代码(code),并将其登记到RecEng即可。当异常发生时需要通知到的人员列表在云监控服务中配置当系统检测到异常发生时,RecEng支持以短信、邮件、电话等方式通知到相关人员,第一时间给出告警。关于在RecEng中如何配置云监控,请参考【链接】,下图给出了配置告警监控的过程示意。

alertpic

质检算法

质检算法依赖于推荐算法,不同的推荐算法对于数据的要求有所不同。质检算法的输入是一张或一组标准表,根据算法对数据的要求进行检查。从实现的角度看,质检算法是可以内置在推荐算法中的,在执行推荐逻辑之前对输入数据进行检查,这也是通常的做法。RecEng之所以把质检算法独立出来,主要出于以下两个考虑:

1.许多算法对数据的要求是类似的,独立出来能够减少开发的工作量。

2.数据质检在前期重要性比较高,因为流程可能磨合的不太顺畅,加载更多的质检算法有利于帮助发现问题;后期可以只针对输入数据进行质检,中间数据质检的重要性可能不是很高,可以省略掉,一方面能够加快速度,另一方面也能降低计算成本。

本文导读目录