视频推荐

本文为您介绍视频推荐的相关字段,帮助您构建一个全面的视频推荐系统,通过分析用户的特征、视频内容的特征以及用户对视频内容的行为,实现个性化推荐。

说明

下表是视频推荐场景建议准备的用户表、物品表、行为表的字段,字段越完善越丰富,推荐效果会越好。 如能提供下表中没有涵盖到的特征字段,可以在后面追加字段。不要求字段名称与下面表格中的字段名称完全一致。

用户侧(用户表

字段名称

类型

是否必选

说明

user_id

整数/字符串

用户ID,用户的唯一标识符。

age

整数

用户的年龄,可以进行分段处理。

例如,0~12,12~18,18~24,25~34等,作为数值特征,离散化之后作为类别特征。

gender

字符串

用户的性别。

例如,男、女或其他,作为类别特征,也可以用0、1或2等整数来表明性别。

occupation

字符串

用户的职业信息。

例如,学生、教师、工程师等,作为类别特征。

education

字符串

用户的教育背景。

例如,高中、本科、硕士等,作为类别特征。

income

整数/字符串

用户的收入水平。

例如,低、中、高,作为类别特征。

user_level

整数/字符串

用户在平台上的等级或会员等级。

register_time

时间戳

用户注册账户的时间,单位是秒。可以转换后按年、月、日分段,作为数值特征,离散化之后作为类别特征。

country

字符串

用户所在国家,作为类别特征。

province

字符串

用户所在国家的省,作为类别特征。

city

字符串

用户所在国家的城市,作为类别特征。

active_time

整数/字符串

用户在平台上的活跃时间段。

例如,早晨、下午、晚上等,作为类别特征。

device_type

字符串

用户使用的设备类型。

例如,PC、手机、平板等,作为类别特征。

os

字符串

用户设备上的操作系统。

例如,iOS、Android、Windows等,作为类别特征。

browser

字符串

用户使用的浏览器类型。

例如,Chrome、Firefox、Safari等,作为类别特征。

language

字符串

用户偏好的语言。

例如,英语、中文、西班牙语等,作为类别特征。

interests

字符串

用户的兴趣点。

例如,运动、音乐、旅行等,作为Tag特征。

物品侧(视频内容表)

字段名称

类型

是否必选

说明

item_id

整数/字符串

物品ID,视频内容的唯一标识符。

category

字符串

视频内容的一级分类,作为类别特征。

leaf_category

字符串

视频内容的叶子类目,作为类别特征。

brand

字符串

视频内容的品牌或制作方,作为类别特征。

video_type

字符串

视频的类型。

例如,电影、电视剧、纪录片、短片等,作为类别特征。

duration

整数

视频的时长,可以离散化为短于10分钟、10~30分钟、超过30分钟等,作为类别特征。

title

字符串

视频的标题。

series_name

字符串

视频剧集名称。

例如,《西游记》。

series_total_number

整数

视频剧集总共多少集。

series_number

整数

视频剧集当前是第几集。

例如,1表示第一集。

release_date

时间戳

视频的发布日期,单位为秒,可以作为数值特征。

director

字符串

视频的导演。

actors

字符串

视频的主要演员,半角逗号分隔,多值作为tag特征。

rating

浮点数

视频的评分。

例如,IMDb评分、豆瓣评分等,作为数值特征。

language

字符串

视频的原始语言。

例如,英语、中文、日语等,作为类别特征。

has_subtitle

整数

视频是否提供字幕。

region

字符串

视频的制作地区。

例如,好莱坞、宝莱坞、中国内地等,作为类别特征。

tags

字符串

视频的标签。

例如,喜剧、动作、爱情等,多值作为tag特征。

用户行为侧(用户行为日志表)

字段名称

类型

是否必选

说明

request_id

字符串

请求ID,每次推荐的唯一标识符。

user_id

整数/字符串

用户ID,用户的唯一标识符。

item_id

整数/字符串

物品ID,视频内容的唯一标识符。

event

字符串

用户对视频内容的行为。

例如,曝光、点击、点赞等,作为类别特征。

event_value

数值

当event字段的值为观看watch,event_value可以填写值为观看时长(按秒为单位)。

timestamp

时间戳

用户行为发生的时间,单位是秒。可以按小时、星期几、是否节假日等分段,作为类别特征。

scene

字符串

用户行为发生的场景,作为类别特征。

device_type

字符串

用户使用的设备类型。

例如,PC、手机、平板等,作为类别特征。

browser

字符串

用户使用的浏览器类型。

例如,Chrome、Firefox、Safari等,作为类别特征。

mobile_brand

字符串

用户手机的品牌,作为类别特征。

os

字符串

用户设备上的操作系统。

例如,iOS、Android、Windows等,作为类别特征。

ip

字符串

用户的IP地址,可以通过IP定位得到所在省、城市特征,作为类别特征。

rating

小数

用户对视频内容评价的平均分数。

例如,满分10分,该视频分数是8.5。

weather

字符串

用户所在地的天气情况。

例如,晴、雨、雪等,作为类别特征。

holiday

布尔

用户行为发生时是否是节假日。

例如,春节、国庆节等,作为类别特征。

season

字符串

当前的季节。

例如,春、夏、秋、冬,作为类别特征。

longitude

浮点数

用户所在位置的经度,作为数值特征,离散化之后作为类别特征。

latitude

浮点数

用户所在位置的纬度,作为数值特征,离散化之后作为类别特征。