文档

什么是推荐全链路深度定制开发平台PAI-REC

推荐全链路深度定制开发平台PAI-REC(PAI是Platform of AI的缩写,Rec即Recommendation的简称),是适用于企业开发者自主搭建、开发、迭代、运维的一整套推荐系统平台级服务。

推荐系统是一个比较复杂的系统化工程,推荐系统分为离线、在线、实时数据链路和工程架构。推荐系统又分为召回、排序、过滤、重排等模块。PAI-REC的推荐模块和链路均依托于阿里云飞天大数据架构,开发者可结合企业技术栈、开发习惯等灵活选型,并对推荐链路的代码可自定义开发,我们提供多种数据诊断分析、推荐结果调试、引擎发布管理等各种工具。通过a/b testing服务和实验报表平台,帮助客户大幅提升推荐系统迭代效率。

为什么我们说PAI-REC是全链路定制开发平台呢?因为我们可以从客户埋点的日志开始做数据分析,然后可以根据业务定制出特征工程、召回、排序的算法代码,引擎的配置文件,实验报表指标和统计代码。帮助客户轻松的搭建推荐系统,完善推荐场景,缩短推荐业务的建设和优化的周期。不管客户是从0到1建设推荐系统,还是已有推荐系统遇到效果优化的瓶颈,都可以基于该平台开展工作。

image.png

使用PAI-REC建设推荐系统的特点是:

  • 白盒化:提供大量源代码,让用户理解推荐算法细节,可自定义代码灵活满足业务需求

  • 推荐算法定制:只需配置用户表、物品表、行为表,即可生成召回、排序脚本和配置文件

  • 提供完整的引擎管理和实验管理后台,让用户能够轻松管理召回、排序组件、更新引擎参数

  • 提供指标和报表管理后台,用户可自定义指标、按天和按小时了解实验效果

  • 提供离在线特征一致性对比工具,避免因为一致性问题导致实验效果不符合预期

  • 提供数据智能诊断,帮助开发者快速理解数据,根据结果数据选择特征和特征工程的时间窗

  • 提供各种诊断工具,帮助用户可视化观察推荐结果和召回数据

  • 配合特征平台管理工具,能够更好管理特征,提高实验效率

  • 提供各种技术服务,帮助用户用好解决方案,解答使用中的问题

源代码包括:

  • 数据特征工程和样本处理的源代码

  • 调用召回、排序模型的脚本代码

  • EasyRec召回和排序模型的源代码

  • PAI-REC引擎的业务源代码

我们对客户白盒化开发模式,将为开发者带来更加透明、可控、灵活的开发体验。除此之外,如果企业推荐算法、工程团队建设相对年轻,我们建议对接初期,采用阿里算法团队基于行业定制的算法模型来启动服务,一方面可辅助企业在短期内完成完整推荐系统的部署,另一方面可助力企业开发者快速上手、自主完成模型训练、效果评估等。如果需要阿里侧工程师提供深度的调优定制、调优经验分享等,也可通过商务洽谈沟通开展深入合作。

我们还提供冷启动、流量调控、在线学习等多种产品功能,由于方案相对比较复杂,有需要请与我们的销售或者技术团队联系做进一步的交流。

我们使用PAI-EasyRec来训练召回和排序模型,go语言的PAI-REC引擎来搭建推荐系统;DataWorks或者PAI-Designer来编辑和调度特征工程、样本和模型训练的代码;用BE/GraphCompute/hologres来存储用户特征、i2i查询、向量查询;用PAI-EAS来提供可弹性扩缩容的打分服务,。以下是这些产品的具体介绍:

机器学习平台PAI机器学习平台PAI(Platform of Artificial Intelligence)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

EasyRec算法框架EasyRec内置了业界先进的深度学习模型,支持多种Tensorflow版本(>=1.12, <=2.4, PAI-TF),覆盖了推荐全链路的需求,包括召回、粗排、排序、重排、多目标、冷启动等。开发者可基于EasyRec算法框架加速迭代推荐全链路需求。

DataWorksMaxCompute是基于云原生的两款大数据服务,可搭配使用,针对推荐系统中特征处理、样本生成、画像管理、模型调度、数据更新等环节,提供了易用的开发工具和稳定的数据环境,如您有除DataWorks、MaxCompute之外的大数据服务选型,PAI-REC标准服务暂未支持,建议使用DataWorks、MaxCompute。

如确需使用其他大数据服务选型,可能需要您修改相应的引擎代码,请提前与架构师沟通方案。

Hologres(什么是实时数仓Hologres)是阿里巴巴自主研发的一站式实时数仓引擎(Real-Time Data Warehouse),支持海量数据实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议和语法,支持大部分PostgreSQL函数),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),支持多种负载的细粒度隔离与企业级安全能力,与MaxCompute、Flink、DataWorks深度融合,提供企业级离在线一体化全栈数仓解决方案。我们可以使用hologres存储用户实时行为序列和用户特征、推荐召回数据,使用hologres提供的向量召回功能等。

图计算服务(什么是图计算服务)是阿里云自主研发的高性能分布式图计算产品,为开发者提供万亿级数据规模的一站式图技术服务。Graph Compute支持复杂图关系数据的存储、查询和计算,高效对接图算法与模型,在搜索推荐广告、实时风控、知识图谱、社交网络等场景有着广泛的应用。

  • 本页导读 (0)
文档反馈