下表是电商场景建议要有的用户表、物品表、行为表的字段,字段越完善越丰富,推荐效果会越好。 如能提供下表中没有涵盖到的特征字段,可以在后面追加字段,多多益善。不要求字段名称与下面表格中的字段名称完全一致。
用户表
系统内全部注册用户表,建议每天一个分区,每个分区为当天全量用户的快照。
字段名 | 字段含义 | 是否必填 | 字段值说明 |
user_id | 用户唯一ID | 已登录用户必填 | user_id 可作为一个用户的唯一标识 |
user_id_type | 用户注册类型 | 可选 |
|
imei | 设备ID | 未登录用户必填 | imei |
gender | 性别 | 可选 | male/female/unknown |
age / birthday | 年龄 / 出生日期 | 可选 | |
purchasing | 购买力 | 可选 | 基于历史数据统计/建模得到 |
country | 国家 | 可选 | |
province | 省份 | 可选 | |
city | 城市 | 可选 | |
register_time | 注册时间戳 | 可选 | 单位:秒 |
education | 用户学历 | 可选 | |
career | 用户职业 | 可选 | |
last_login_time | 上次登录时间戳 | 可选 | 单位:秒,例:1520017038 |
source | 用户来源 | 可选 | 头条、微信 |
content | 用户描述 | 可选 | |
tags | 对用户的标签描述 | 可选 | 足球、健身、户外 |
商品表
系统内全量商品表。建议每天一个分区,每个分区为截止当天全量内容的快照。
字段名 | 字段含义 | 是否必填 | 字段值说明 |
item_id | 商品唯一Id | 必填 | |
item_type | 商品类型 | 可选 | |
source_id | 商品来源 | 可选 | 导购电商填写商品的源平台,如淘宝、天猫、京东等 |
title | 商品标题 | 建议填写 | 将用于语义层面深入分析,置空会损失部分算法效果 |
sub_title | 商品副标题 | 可选 | |
pub_time | 发布时的时间戳 | 必填 | 单位:秒 |
expire_time | 内容失效时间戳 | 可选 | 单位:秒 |
category_level | 类目层级数 | 建议填写 | 例如3级类目 |
cate_id_path | 全类目id路径 | 建议填写 | 支持多级类目,用下划线联接 |
cate_name_path | 全类目名称路径 | 建议填写 | 支持多级类目,用下划线联接 |
cate1_id | 一级类目id | 建议填写 | 类目层级树需遵循“MECE”原则 |
cate2_id | 二级类目id | 建议填写 | 类目层级树需要“完全穷尽、相互独立”,语义上不可交叉 |
cate_id | 叶子类目id | 建议填写 | 类目层级树的末级叶子节点ID |
cate1_name | 一级类目名称 | 建议填写 | |
cate2_name | 二级类目名称 | 建议填写 | |
cate_name | 叶子类目名称 | 建议填写 | |
brand_id | 品牌ID | 建议填写 | 品牌ID |
shop_id | 店铺ID | 可选 | 店铺ID |
description | 商品详情描述 | 可选 | |
price | 商品价格 | 必填 | float类型,实际售卖价格 |
origin_price | 商品原价 | 可选 | 折扣前的售价 |
discount | 折扣 | 可选 | price/origin_price |
tags | 商品标签 | 可选 | 业务运营打上的标签,例如参加活动的ID |
color | 颜色分类 | 可选 | |
properties | 商品属性名&属性值 | 建议填写 | 指商家填写的商品参数 json格式,例如:{"material": "棉", "style": "通勤"} |
postage | 运费 | 可选 | 包邮商品运费填0 |
image_url | 商品图片url | 可选 | 提供公网可下载的链接 |
video_url | 商品视频url | 可选 | 提供公网可下载的链接 |
shop_dsr | 商家动态评分 | 可选 | 店铺评分,也称:DSR动态评分(Detailed seller ratings),评分:宝贝与描述相符、卖家的服务态度、物流服务的质量 |
spu_id | spu_id | 建议填写 | 标准产品单位ID |
sku_id | sku_id | 可选 | 最小货存单位ID |
prov | 商品所在省份 | 可选 | |
city | 商品所在城市 | 可选 | |
rate | 好评率 | 可选 |
行为表
最近一段时间App的行为数据 或 场景内的行为数据,建议至少30-60天。
为了获取用户完整的行为,尽量上报用户在全站的行为,不仅收集推荐场景(home_feed),还收集如热门场景(hot_items)和搜索场景(search)的曝光、点击等行为。在搜索场景,则记录搜索词(query)。
字段名 | 字段含义 | 是否必填 | 字段值说明 |
user_id | 用户ID | 已登录用户必填 | |
imei | 用户设备ID | 未登录用户必填 | imei |
item_id | 商品ID | 必填 | |
item_type | 商品类型 | 可选 | |
event | 行为类型 | 必填 | 曝光、停留、点击、收藏、下载、购买、加购、评价等 |
event_time | 行为时间戳 | 必填 | 单位:秒 |
event_value | 行为值 | 可选 | 停留时长,购买件数、购买金额等 |
request_id | 请求追踪/埋点ID | 建议填写 | 每次推荐请求的唯一ID |
exp_id | 实验桶ID | 建议填写 | |
request_info | 请求埋点信息 | 可选 | 推荐接口调用时返回该信息,日志记录时带上即可 |
scene | 场景ID | 必须 | 如:home_feed,表示首页推荐流;hot_items,表示热卖栏目,注意这不是推荐场景的行为也需要; search:表示搜索场景,搜索场景需要填写本次搜索的query |
query | 搜索词 | 可选 | 当搜索场景需要这个行为 |
page | 页面ID | 可选 | 商品详情页填写主商品ID |
source_page | 上一页面 | 可选 | |
position | 内容所在的位置信息 | 必填 | 在列表中的第几个位置 |
app_version | app的版本号 | 可选 | |
net_type | 网络型号 | 可选 | 3G/4G/5G/WIFI |
ip | 客户端IP信息 | 可选 | 辅助定位用户地理位置 |
login | 是否登录用户 | 必填 | |
device_platform | 客户端平台 | 必填 | ios/android/h5/msite |
device_system | 设备操作系统 | 建议填写 | ios、android、pc |
device_model | 设备型号 | 可选 | iphoneX |
device_brand | 设备品牌/制造商 | 可选 | 小米、华为等 |
longitude | 位置经度 | 可选 | |
latitude | 位置纬度 | 可选 | |
country | 国家 | 可选 | |
province | 省份 | 可选 | |
city | 城市 | 建议填写 |
行为类型
下表为电商行业支持的9种常见行为类型。
序号 | 行为释义 | event | event_value | 说明 |
1 | 曝光 | expose | 置空即可 | / |
2 | 点击 | click | 置空即可 | / |
3 | 点赞 | like | 置空即可 | / |
4 | 踩 | unlike | 置空即可 | / |
5 | 评论 | comment | 评论内容 | 可用来挖掘用户的购物体验和商品质量 |
6 | 收藏 | collect | 置空即可 | / |
7 | 停留时长 | stay | 时长 | 单位不限,请注意每条数据中具备相同单位约定 |
8 | 加购 | cart | 件数,单价((英文逗号隔开)示例:1,10000 | 单价:RMB,可精确到百分位(分) |
9 | 购买 | buy | 件数,单价(英文逗号隔开)示例:1,10000 | 单价:RMB,可精确到百分位(分)。一条购买行为中,只能对应一个item_id,一个订单多个item_id,需要进行拆分。 |
10 | 评价 | evaluate | 离散的递增或递减的整数 | 举例:若使用星级评价,1-5星表示好评度递增,则可设置对应关系为1星值取1,2星2,5星5。务必保证增减逻辑与实际好差评趋势对应。 |
11 | 负反馈 | dislike |