开通及服务初始化

更新时间:2025-04-24 05:36:50

首次使用PAI-Rec搭建推荐系统时,需要购买PAI-Rec实例并配置初始环境。

选型说明

实例选型

初次接入PAI-Rec,建议在标准版实例基础上,同时购买推荐方案定制运营工具两个增值功能:推荐方案定制可自定义特征工程、召回策略和精排策略等环节,更加灵活高效地配置推荐系统;运营工具能够提升运营效率和推荐效果的可控性。

云产品资源选型

搭建PAI-Rec推荐方案需要使用多个云产品,不同业务所需的云产品资源不同。

依赖云产品(单击查看详情)

image

云产品

作用

需要配置的云资源

建模

对象存储OSS

用于存储模型的checkpoint、saved model文件和配置文件等。

创建OSS Bucket

说明

请勿开启版本控制功能。

云原生大数据计算服务MaxCompute

用于数据清洗、特征工程和准备训练样本。

创建MaxCompute项目

如果需要使用PAI-DLC训练模型,请开通数据传输服务

人工智能平台PAI

PAI不仅作为PAI-Rec推荐开发平台的入口,同时包含FeatureStore特征平台管理功能、模型训练、评估和导出(PAI-DLC)。

创建PAI工作空间

说明

由于PAIDataWorks的工作空间在底层是打通的,所以创建PAI工作空间后,在DataWorks也会自动生成一个同名的工作空间。

您也可以手动创建一个DataWorks工作空间。

大数据开发治理平台DataWorks

用于数据清洗、特征工程、模型训练和评估、更新模型和同步数据到线上存储,调度所有的离线数据生产任务、模型训练和评估任务等。

引擎

实时数仓Hologres实例ID与数据库

实时特征存储引擎。

可以和FeatureDB搭配使用,例如,用Hologres存储向量召回、用户曝光数据和u2i2itrigger数据;用FeatureDB存放用户和物品的离线特征和实时特征。

购买Hologres实例,并创建数据库

是否使用PAI-FestureStore

实时特征存储引擎。

云数据库Redis实例ID

存储兜底数据。可用PAI-FeatureStore中的FeatureDB替代。

创建实例

PAI-EAS资源组

部署推荐系统的引擎,用于串联召回、过滤、粗排、精排、重排等流程。部署向量召回的用户侧向量推理服务、粗排和精排的模型打分服务。

购买及配置部署资源

其他

日志服务SLS

用户可使用SLS服务管理请求日志。

创建项目Project

数据总线DataHub Project

用于实时日志回流,持续更新用户行为,用于模型训练。

建议优先使用DataHub。

创建项目

消息队列Kafka实例ID资源组

购买和部署实例

Flink VVP流式服务

实时数据处理与特征计算。

开通实时计算Flink

选型方案建议

根据DAU(日活)规模选型(单击查看详情)

说明

此处的DAU规模仅为预估,不是一个严格的分界线,主要是基于提高推荐效果是否能带来足够的业务价值,以覆盖推荐系统的成本。

DAU小于5万的方案为基准,下面的方案都是在上一方案基础上的增量解决方案。

DAU规模

说明

召回模型建议

排序模型建议

用户特征存储建议

DAU<5

推荐系统可以用相对简单的方案,以便控制成本并提高业务的推荐效果。

使用协同过滤etrecSwing算法工具、分组热门等。不使用向量召回模型,可节约在线的向量召回。

使用相对简单的单目标多塔模型,推理速度快效果比较好,同时节约PAI-EAS的资源。

使用MaxCompute预付费资源,做特征工程、样本处理、深度学习模型训练。

通过Flink写入到Redis中。

DAU>5

推荐系统可以使用更加复杂的方案以便帮助业务得到更好的推荐结果。

可以增加向量召回,所有特征存储、向量查询都使用Hologres

使用多目标排序模型。

当用户特征快速变化的情况,可考虑图计算服务GraphCompute

DAU>20

当业务对物品的实时特征对推荐效果非常敏感时,建议增加实时特征,物品实时特征的统计需要在Flink中完成。

用户向量的实时推理

EAS本地Faiss向量召回

物品冷启动算法,如协同度量学习算法。

建议使用增量训练节约训练成本。

建议增加物品实时特征。

可以考虑图计算服务GraphCompute

DAU>50

如果经常有活动影响推荐系统的效果,可以考虑增加在线学习的方案。

如果经常有活动影响推荐系统的效果,可以考虑增加在线学习的方案。

即通过Flink实时拼接样本,在线学习模型并且每天多次更新线上的模型。

可考虑预付费的MaxCompute资源。

根据场景选型(单击查看详情)

  • 当新物品较多:

    建议使用物品冷启动算法,让新物品分发更加合理。

  • 当需要调控指定物品或类目的流量:

    建议使用流量调控的算法,按照物品、物品集合、物品类目来调整曝光流量数量、曝光占比。

  • 其他建议:

    • PAI-EAS:注意在业务高峰期配置定时扩容,同时配置自动缩容保证到业务低峰期收缩资源。

    • PAI-EAS打分服务:可考虑预付费资源和弹性扩缩容资源相结合。

    • 用户有社交关系:建议使用GraphCompute管理用户之间的关注、好友关系。有社交关系的推荐场景建议使用GraphSage等图算法。

前提条件

本文以离线建模场景为例进行说明,该场景需要使用以下云产品资源。更多其他云产品资源详情,请参见云产品资源选型

购买PAI-Rec实例并配置云产品

  1. 实例购买页面,设置地域推荐方案定制运营工具购买时长,单击立即购买,确认订单并完成支付。

  2. PAI-Rec管理控制台,切换至目标地域后,单击左侧导航栏的系统配置 > 云产品配置

  3. 建模页签下,单击编辑,分别选择已创建的云产品资源,然后单击完成

    引擎其他页签下的参数配置同理,请先配置对应的云资源,然后在PAI-Rec侧进行关联配置。

  • 本页导读 (1)
  • 选型说明
  • 实例选型
  • 云产品资源选型
  • 选型方案建议
  • 前提条件
  • 购买PAI-Rec实例并配置云产品