本文为您介绍视频推荐的相关字段,帮助您构建一个全面的视频推荐系统,通过分析用户的特征、视频内容的特征以及用户对视频内容的行为,实现个性化推荐。
下表是视频推荐场景建议准备的用户表、物品表、行为表的字段,字段越完善越丰富,推荐效果会越好。 如能提供下表中没有涵盖到的特征字段,可以在后面追加字段。不要求字段名称与下面表格中的字段名称完全一致。
用户侧(用户表)
字段名称 | 类型 | 是否必选 | 说明 |
user_id | 整数/字符串 | 是 | 用户ID,用户的唯一标识符。 |
age | 整数 | 否 | 用户的年龄,可以进行分段处理。 例如,0~12,12~18,18~24,25~34等,作为数值特征,离散化之后作为类别特征。 |
gender | 字符串 | 否 | 用户的性别。 例如,男、女或其他,作为类别特征,也可以用0、1或2等整数来表明性别。 |
occupation | 字符串 | 否 | 用户的职业信息。 例如,学生、教师、工程师等,作为类别特征。 |
education | 字符串 | 否 | 用户的教育背景。 例如,高中、本科、硕士等,作为类别特征。 |
income | 整数/字符串 | 否 | 用户的收入水平。 例如,低、中、高,作为类别特征。 |
user_level | 整数/字符串 | 否 | 用户在平台上的等级或会员等级。 |
register_time | 时间戳 | 否 | 用户注册账户的时间,单位是秒。可以转换后按年、月、日分段,作为数值特征,离散化之后作为类别特征。 |
country | 字符串 | 否 | 用户所在国家,作为类别特征。 |
province | 字符串 | 否 | 用户所在国家的省,作为类别特征。 |
city | 字符串 | 否 | 用户所在国家的城市,作为类别特征。 |
active_time | 整数/字符串 | 否 | 用户在平台上的活跃时间段。 例如,早晨、下午、晚上等,作为类别特征。 |
device_type | 字符串 | 否 | 用户使用的设备类型。 例如,PC、手机、平板等,作为类别特征。 |
os | 字符串 | 否 | 用户设备上的操作系统。 例如,iOS、Android、Windows等,作为类别特征。 |
browser | 字符串 | 否 | 用户使用的浏览器类型。 例如,Chrome、Firefox、Safari等,作为类别特征。 |
language | 字符串 | 否 | 用户偏好的语言。 例如,英语、中文、西班牙语等,作为类别特征。 |
interests | 字符串 | 否 | 用户的兴趣点。 例如,运动、音乐、旅行等,作为Tag特征。 |
物品侧(视频内容表)
字段名称 | 类型 | 是否必选 | 说明 |
item_id | 整数/字符串 | 是 | 物品ID,视频内容的唯一标识符。 |
category | 字符串 | 否 | 视频内容的一级分类,作为类别特征。 |
leaf_category | 字符串 | 否 | 视频内容的叶子类目,作为类别特征。 |
brand | 字符串 | 否 | 视频内容的品牌或制作方,作为类别特征。 |
video_type | 字符串 | 否 | 视频的类型。 例如,电影、电视剧、纪录片、短片等,作为类别特征。 |
duration | 整数 | 否 | 视频的时长,可以离散化为短于10分钟、10~30分钟、超过30分钟等,作为类别特征。 |
title | 字符串 | 否 | 视频的标题。 |
series_name | 字符串 | 否 | 视频剧集名称。 例如,《西游记》。 |
series_total_number | 整数 | 否 | 视频剧集总共多少集。 |
series_number | 整数 | 否 | 视频剧集当前是第几集。 例如,1表示第一集。 |
release_date | 时间戳 | 否 | 视频的发布日期,单位为秒,可以作为数值特征。 |
director | 字符串 | 否 | 视频的导演。 |
actors | 字符串 | 否 | 视频的主要演员,半角逗号分隔,多值作为tag特征。 |
rating | 浮点数 | 否 | 视频的评分。 例如,IMDb评分、豆瓣评分等,作为数值特征。 |
language | 字符串 | 否 | 视频的原始语言。 例如,英语、中文、日语等,作为类别特征。 |
has_subtitle | 整数 | 否 | 视频是否提供字幕。 |
region | 字符串 | 否 | 视频的制作地区。 例如,好莱坞、宝莱坞、中国内地等,作为类别特征。 |
tags | 字符串 | 否 | 视频的标签。 例如,喜剧、动作、爱情等,多值作为tag特征。 |
用户行为侧(用户行为日志表)
字段名称 | 类型 | 是否必选 | 说明 |
request_id | 字符串 | 是 | 请求ID,每次推荐的唯一标识符。 |
user_id | 整数/字符串 | 是 | 用户ID,用户的唯一标识符。 |
item_id | 整数/字符串 | 是 | 物品ID,视频内容的唯一标识符。 |
event | 字符串 | 是 | 用户对视频内容的行为。 例如,曝光、点击、点赞等,作为类别特征。 |
event_value | 数值 | 是 | 当event字段的值为观看 |
timestamp | 时间戳 | 是 | 用户行为发生的时间,单位是秒。可以按小时、星期几、是否节假日等分段,作为类别特征。 |
scene | 字符串 | 否 | 用户行为发生的场景,作为类别特征。 |
device_type | 字符串 | 否 | 用户使用的设备类型。 例如,PC、手机、平板等,作为类别特征。 |
browser | 字符串 | 否 | 用户使用的浏览器类型。 例如,Chrome、Firefox、Safari等,作为类别特征。 |
mobile_brand | 字符串 | 否 | 用户手机的品牌,作为类别特征。 |
os | 字符串 | 否 | 用户设备上的操作系统。 例如,iOS、Android、Windows等,作为类别特征。 |
ip | 字符串 | 否 | 用户的IP地址,可以通过IP定位得到所在省、城市特征,作为类别特征。 |
rating | 小数 | 否 | 用户对视频内容评价的平均分数。 例如,满分10分,该视频分数是8.5。 |
weather | 字符串 | 否 | 用户所在地的天气情况。 例如,晴、雨、雪等,作为类别特征。 |
holiday | 布尔 | 否 | 用户行为发生时是否是节假日。 例如,春节、国庆节等,作为类别特征。 |
season | 字符串 | 否 | 当前的季节。 例如,春、夏、秋、冬,作为类别特征。 |
longitude | 浮点数 | 否 | 用户所在位置的经度,作为数值特征,离散化之后作为类别特征。 |
latitude | 浮点数 | 否 | 用户所在位置的纬度,作为数值特征,离散化之后作为类别特征。 |