PAI-Rec推荐开发平台-内容推荐场景数据格式

说明

下表是内容场景建议要有的用户表、物品表、行为表的字段,字段越完善越丰富,推荐效果会越好。 如能提供下表中没有涵盖到的特征字段,可以在后面追加字段,多多益善

用户表

系统内全部注册用户表,建议每天一个分区,每个分区为当天全量用户的快照

字段名

是否必填

字段说明

user_id

已登录用户必填

用户唯一ID

imei

未登录用户必填

imei

register_time

可选,建议填写

注册时间。单位:秒;例如:1520017038

gender

可选

性别

age

可选

年龄

country

可选

国家

province

可选

省份

city

可选

城市

ip

可选

最后登录IP

education

可选

教育水平

career

可选

职业

item_cnt

可选

创作内容数,指的是用户从注册开始累积创作做。

favorite_cnt

可选

收藏数

follow_cnt

可选

关注数

follower_cnt

可选

粉丝数

last_login_time

可选

上次登录时间

tags

可选

用户标签

物品表

系统内全量内容表。建议每天一个分区,每个分区为截止当天全量内容的快照。

字段名

是否必填

字段说明

item_id

必填

内容ID

item_type

多内容类型必填

内容类型,如文章,视频等

status

必选

是否可推荐

duration

可选,视频必填

视频时长

pub_time

必填

发布时间

title

可选,建议填写

标题

category

可选,建议填写

一级标签,建议用英文

tags

可选

标签,可以是多种标签,用半角逗号(分号)分割

author

可选,建议填写

作者

abstract

可选

内容摘要

content

可选

内容正文

image_url

可选

图片url,用于提取图像特征

video_url

可选

视频url,用于提取视频特征

pv_count

可选

累计曝光数

click_count

可选

累计点击数

praise_count

可选

累计点赞数

comment_count

可选

累计评论数

collect_count

可选

累计收藏数

share_count

可选

累计分享数

download_count

可选

累计下载数

tip_count

可选

累计打赏数

行为表

最近一段时间App的行为数据 或 场景内的行为数据,建议至少30-60天。

字段名

是否必填

字段说明

user_id

已登录用户必填

用户唯一ID

imei

未登录用户必填

imei

item_id

必填

内容ID

item_type

多内容类型必填

内容类型,如文章,视频等

request_id

可选

请求ID,每次推荐的唯一标识符。没有request_id 会影响样本的准确性,并且没法增加实时特征。如果是新建推荐场景,可以没有request_id ,在搭建好推荐场景之后,请补上request_id,并调整训练样本的代码,重新准备训练样本再训练模型。

request_info

可选,建议填写

埋点内容,如召回id

exp_id

必填

PAI-Rec推荐接口返回的实验id;如果不是PAI-Rec推荐的结果,填写default等流量名称

scene

多场景必填

场景

page

可选,多页面建议填写

页面

source_page

可选,多页面建议填写

上一页面

position

可选

内容所在位置

event

必填

填写英文字符串:曝光(exposure)、停留(stay)、点击(click)、收藏(favor)、下载(download)、购买(buy)、加购(cart)、评价(evaluate)等

event_time

必填

行为发生时间

playtime

可选,建议填写

播放时长/阅读时长。单位:秒。

comment

可选

评论内容

net_type

可选

网络型号

device_platform

可选,建议填写

客户端平台

device_brand

可选

客户端品牌

device_model

可选

客户端机型

device_system

可选

客户端操作系统

app_version

可选

app版本

longitude

可选

位置经度

latitude

可选

位置纬度

ip

可选

用于提取国家、城市等特征