一、适配场景
已经开通MaxCompute服务,并能熟练使用其各项操作。
二、流程图
三、user、item、behavior数据的上传
I 存量数据
user数据和item数据:导入至MaxCompute。behavior数据:将1-2周的行为数据导入至MaxCompute。
在MaxCompute中建表存放历史数据时,选填字段的值可以为空,但是不可省去表字段,表中需要包含所有字段,具体建表语句参考数据规范。
II 增量数据
user数据和item数据:通过官方文档中服务端SDK进行上传。behavior数据:通过官方文档中服务端SDK进行上传。
III 服务端SDK使用方法
如果您使用的是Java语言:
1、参考如下链接配置好Java服务端SDK的环境:Java SDK 使用方法。
2、通过服务端SDK推送数据请使用如下链接代码:推送数据。
3、获取推荐结果请使用如下链接代码:获取推荐结果。
如果您使用的是其他语言,请参考《Java SDK使用方法》的同级目录中其他语言的使用方法。
IV 服务端SDK推送数据的表信息
V 推送数据官方文档例子
推送数据。
四、具体操作
1.历史数据导入MaxCompute
历史数据导入MaxCompute的步骤,此处以导入csv格式的历史数据为例,如需其他方式可参考MaxCompute官方文档
用MaxCompute上传CSV文件格式的历史数据
如果您有CSV格式的历史数据需要导入,可以参考如下步骤:
1、创建MaxCompute项目:
您可以通过MaxCompute上传CSV文件格式的历史数据在启动时使用,按照文档创建项目空间后,在对应项目空间的MaxCompute选项处,选择新建表
为表命名,并选择对应引擎实例(如果有多个的话)
建表完成后,选择使用DDL模式建立表结构,注意,此处建表语句中的表名需要同上一步建立的表名相同
此处的建表语句可参考数据规范中的建表语句,此处用内容行业模板做示范
根据提示建立完成表,然后在左侧表名上右键,点击导入数据
输入对应dt分区数据,即可导入启动用的历史数据了
2.使用历史数据启动AIRec实例
I 选择行业
注意:实例启动后,您选择的行业不支持变更。
II 选择启动智能推荐服务的方式
由于我们选择的是历史数据启动实例,所以此处选择“历史数据启动”。
注:通过MaxCompute中的存量数据来启动智能推荐,后续不用再维护MaxCompute,增量数据直接通过服务端SDK上报。
如上图“体验启动”的方式,用于测试和学习智能推荐控制台的功能。不需要您已经有数据、也不需要您上传数据,可以直接启动实例。与“历史数据启动”不同的是“体验启动”有一定量的测试数据,可以直接查看各种数据指标,而“历史数据启动”需要您在MaxCompute中事先存储数据,后续数据通过服务端SDK上传数据。
III 配置启动数据源
注意:
1.需要先在MaxCompute中给智能推荐授权可读权限,详见:离线存储授权。
2.请您提供脱敏的信息给阿里云,不要包含任何个人信息(包括姓名、年龄、住址等信息);
3.如果您通过MaxCompute上传历史数据,三张表同时导入,不支持单表更新。
IV 配置实时数据源
当您选择通过MaxCompute启动实例时,您增量的行为数据、物品数据、用户数据均需要通过服务端SDK进行数据推送,通过服务端SDK推送数据详见:推送数据。
此时可以直接点击下一步。
V 配置离线存储
开通离线存储,代表将智能推荐服务训练所需的离线数据存储部署在您的企业账户的MaxCompute中,需要您保证这部分离线数据的稳定性、并具备运维这些数据的能力。
实例启动成功后,可以在控制台-离线存储功能处,查看离线存储表的分区信息。
此处的项目名称建议使用独立的项目空间,避免和启动数据的项目空间一致。
配置离线存储数据源之前,需要在MaxCompute中给智能推荐授权可读及可写权限,详见离线存储授权。
离线存储项目建议不要修改或删除,且需保持不欠费,建议设置为自动续费。
实例启动成功后,可以在控制台-离线存储功能处,查看离线存储表的分区信息。
当前版本支持您在您的MaxCompute-cmd中管理离线数据。
支持所有MaxCompute中的操作,高危操作时请谨慎处理,MaxCompute具体操作详见:MaxCompute官档。
对于产出的所有离线数据不要进行高危操作(增加、删除、改写等),否则将会影响智能推荐服务对离线数据的计算。
实例启动成功后,可以在控制台-离线存储功能处,查看离线存储表的分区信息。
注意:如果您在比如4月14日前已通过此方式完成实例启动,如果您有重新启动实例的诉求,将与之前的操作路径存在差异,请按照本文档的最新引导操作。
VI 启动实例(一个半小时左右启动完成)
点击确定启动,启动实例,预计一个半小时左右启动完成
查看实例详情
实例启动后,可以查看实例详情
注意:如果在实例启动成功后,您在MaxCompute中的初始数据有大量更新需要点击重新启动按钮,重启成功后这批数据将于次日零时生效。
VII 增量数据
后续的增量数据需要通过服务端SDK进行上报,如频繁重启实例会影响服务稳定性。
具体使用参考上文的第三模块中:IV服务端SDK推送数据的表信息,以及V推送数据官方文档例子。
注意:要先推送物品数据和用户数据,然后再推送行为数据。
五、配置实例的服务类型(猜你喜欢、相关推荐)
当前版本支持一个实例同时开通猜你喜欢和相关推荐两种服务类型,您可以通过控制台中的场景管理功能创建不同服务类型的场景。
I 点击创建场景
在控制台的业务定制功能栏下,点击-场景管理。
II 选择本场景的推荐服务类型
您可以在当前位置选择本场景为猜你喜欢/相关推荐的服务类型,以及设定场景ID(对应数据规范中的scene_id)等基本信息。
III 场景列表展示
场景管理创建完成后,您可以在场景管理界面处查看您的各个推荐类型的场景。