推荐系统和搜索引擎是现代App解决信息过载的标配系统,如果从零开发推荐系统,不仅需要耗费大量金钱和时间,而且很难满足快速上线推荐系统及不断迭代各种算法的业务要求。本文为您介绍如何使用阿里云产品创建推荐系统的数据和模型,从而快速搭建自己的推荐系统。
架构
完整的推荐流程包括召回、排序、过滤和重排等模块。召回是指从海量的待推荐候选集中,选取待推荐列表。排序是指对待推荐列表的每个Item与User的关联程度进行排序。简要的推荐系统的架构如下:
基于PAI产品实现推荐系统的架构如下(什么是推荐系统开发平台PAI-Rec):

其中:
离线数据包括User、Item属性表,Behavior,均存储于MaxCompute。具体数据格式可以参考:数据格式说明数据准备。
实时用户行为,如曝光、点击、购买行为,写入到DataHub。参考实时行为日志表。
使用DataWorks进行数据预处理和基础特征构建。建议使用PAI-Rec(什么是推荐系统开发平台PAI-Rec)来配置生成推荐算法流程的代码,部署到DataWorks平台上,可以快速提高建设推荐系统的效率。
在线特征通过PAI-FeatureStore的接口,可写入到FeatureDB(特征数据库FeatureDB)
推荐方案定制的排序模块设置粗排和精排算法:排序配置
通过PAI-Rec的引擎配置单来编排推荐算法的流程
最终,用户后端系统调用推荐引擎接口得到推荐结果。
推荐系统的相关资料
【强烈推荐】新用户先按照PAI-Rec模块化推荐算法定制的最佳实践文档操作,使用文中提供的数据来熟悉PAI-Rec推荐开发平台的使用。
【强烈推荐】通过视频,介绍如何快速搭建一套基于协同过滤的简单推荐系统;从零构建推荐系统。
参考FeatureStore概述,了解特征平台的功能。多个模型共用离线和线上特征,可以用PAI-FeatureStore的功能。
参考特征数据库FeatureDB,了解特征的存储。
参考召回引擎概览,了解召回引擎的功能和使用。
PyTorch版开源推荐算法框架:TorchEasyRec。
TensorFlow版开源推荐算法框架:EasyRec。