全部产品
云市场

电商型

更新时间:2019-09-05 14:34:30

数据描述

对于内容型行业的场景,我们需要准备3张数据表

  1. 内容表(item):最近场景内全部可以被推荐的内容的全量表。由于item数量受quota限制,建议您上传前做去重处理。item_id|item_type唯一。
  2. 用户表(user):最近系统的全部注册用户表。由于user数量受quota限制,建议您上传前做去重处理。user_id唯一。
  3. 行为表(behavior):最近一段时间场景的行为数据。我们建议您提供一到两周的数据。如果是全新场景,没有历史数据;或者因为技术原因无法提供行为数据,建议使用我们提供的测试数据,但是在开始一段时间(大约两周)内,模型的效果会不太理想,但随着数据的积累,会逐渐上升并最终稳定。对于这三张表的选填字段,我们建议您尽量上传,这些选填字段越多越准确,模型的效果越好。但是缺失部分选填字段也不会使服务不可用。

表结构

item

字段名 字段类型 是否必需 字段含义 字段值枚举 字段值说明 字段值示例
item_id string 必需 内容唯一标识ID 用户自填 item_id+item_type作为一条数据的唯一标识 34513
item_type string 必需 内容的类型 image
article
video
shortvideo
item
recipe
audio
(如当前类型不满足,请联系技术人员沟通解决方案)
用于混排策略 article
status string 必需 物品状态是否可推荐 0
1
1:可推荐,
0:不可推荐(用于实时干预)
1
title string 推荐 内容标题 用户自填 用于语义层面深入分析,置空会损失部分算法效果,建议填写 数字时代是最大机遇
scene_id string 推荐 物品可被投放的子场景ID 用户自填 1、英文逗号分隔的若干场景ID
2、场景ID中不能含有英文冒号
3、场景ID不能为-102(内部预留值)
4、当推荐不分子场景时,该字段置空。
(用于不同投放页面,使用方式
1001,1002
weight string 推荐 item加权权重1-100 用户自填 1、置空后,默认值为1,不可全部为0
2、设置了高权重的物品,会有更高的概率优先推荐出来
1
pub_time string 推荐 发布时间的时间戳,单位s 用户自填 对有时效性需求的用户,必填。(用于新品的推荐策略 1520327038
expire_time string 推荐 内容失效时间戳,单位s 用户自填 1、当前服务器时间大于该字段时,item将不被继续推荐。
2、如果所有数据均失效,服务无法启动。
3、置为空代表永不失效
1520327038
last_modify_time string 推荐 内容信息的最后修改时间戳,单位s 用户自填 如果用户对已经发布了的商品做了较大的更新,又有时效性的需求,可以更新此字段。同pub time功能类似,共同作用于新品链路。 1520327038
category_level string 推荐 类目层级数,例如3级类目 用户自填 如果和category_path数据不匹配,会影响打散功能 3
category_path string 推荐 类目路径,下划线联接 用户自填 1、类目路径,支持多级类目,用下划线联接
2、不可出现英文逗号,英文冒号
(用于打散策略
12_1024_56
tags string 推荐 标签,多个标签使用英文逗号分隔 用户自填 1、主要用于描述物品的特征,由业务方自行运营物品的标签库
2、算法模型会基于标签进行特征分析,根据行为训练用户热点分布。
3、标签池总个数不能超过50000
数字化,人工智能,AI
content string 可选 内容正文 用户自填 通常为正文关键片段,最长5000个中英文字符,主要用于语义分析 北京时间6月10日晚,联合国发布全球数字经济未来发展纲领性报告——《数字相互依存的时代——联合国数字合作高级别小组报告》。联合国数字合作高级别小组联合主席马云表示:“我相信数字时代是我们面临的最大机遇。我相信这个新时代的最大风险是错失机会的风险。”
share_cnt string 可选 一个月内分享次数 用户自填 启动时,如果当前场景行为数据比较稀疏,可以将平台其他场景的行为统计数据放入这些字段,不要求实时性。模型稳定后,如果维护这些字段成本较高,可以低优先级处理 156
collect_cnt string 可选 一个月内收藏次数 用户自填 不要求实时性,优先级可以放低 566
pv_cnt string 可选 一个月内曝光次数 用户自填 不要求实时性,优先级可以放低 10292
origin_price string 可选 物品原价,单位为元,如果是外币价格,需折算成人民币 用户自填 不要求实时性,优先级可以放低 1000,即1000RMB
cur_price string 可选 物品折后价格,单位为元,如果是外币价格,需折算成人民币 用户自填 不要求实时性,优先级可以放低 900,即900RMB
buy_cnt string 可选 平台月销量 用户自填 启动时,如果当前场景行为数据比较稀疏,可以将平台其他场景的行为统计数据放入这些字段,不要求实时性。模型稳定后,如果维护这些字段成本较高,可以低优先级处理 10
source_buy_cnt string 可选 淘宝月销量 用户自填 不要求实时性,优先级可以放低 10000
comment_cnt string 可选 评论数 用户自填 不要求实时性,优先级可以放低 1000
brand_id string 可选 品牌id 用户自填 不要求实时性,优先级可以放低
shop_id string 可选 店铺id 用户自填 不要求实时性,优先级可以放低
source_id string 可选 物料经由哪个平台进入场景 用户自填 比如天猫,淘宝等,这个字段可以是平台的id,例如淘宝1,天猫2 1
add_fee string 可选 物料的其他附加费用 用户自填 比如邮费。可以用0代表包邮,1代表不包邮,或者用精确到分的具体钱数代表邮费 0
features string 可选 物料特征 用户自填 英文逗号分隔的物料特征;该特征是描述性的
num_features string 可选 物料特征 用户自填 英文逗号分隔的数值型物料特征;必须保证所有物料的该字段逗号个数一致,且字段对齐

user

字段名 字段类型 是否必需 字段含义 字段值枚举 字段值说明 字段值示例
user_id string 必需 用户唯一ID 用户自填 1、注册用户必填
2、user_id + user_id_type作为一条数据唯一标识
1234567
user_id_type string 必需 用户注册类型 1
2
3
4
1:app注册账号,2:手机号,3:微信号,4:其它 2
imei string 推荐 安卓:MD5(imei),IOS:MD5(idfa) 用户自填 1、非注册用户必填
2、按照指定要求,mac地址,设备号等无效,会无法使用内部用户画像信息,仅保留曝光过滤功能
3、32位MD5值
e2fcdb0f4dce45e35fe2823d797333ec
third_user_name string 推荐 第三方用户名称 用户自填 jack
third_user_type string 推荐 第三方平台名称 用户自填 wechat
phone_md5 string 推荐 用户手机号的md5值 用户自填 d41d8cd98f00b204e9800998ecf8427e
gender string 推荐 性别 male
female
unknown
male
age string 推荐 年龄 用户自填 22
age_group string 推荐 年龄段 用户自填 20-25
country string 推荐 国家编码 用户自填 ISO3166-1 alpha-3 编码 “CHN”(中国)
city string 推荐 城市名称 用户自填 杭州
ip string 推荐 最后登录IP 用户自填 202.113.34.16
device_model string 推荐 设备型号 用户自填 iphoneX
tags string 推荐 用户tags,多个tag使用英文逗号分隔 用户自填 对用户的标签描述 足球,健身,户外
source string 推荐 用户来源 用户自填 今日头条引流
content string 可选 用户描述 用户自填
features string 可选 用户特征 用户自填 英文逗号分隔的用户描述性特征,比如画像等
num_features string 可选 用户特征 用户自填 英文逗号分隔的数值型用户特征;必须保证所有物料的该字段逗号个数一致,且字段对齐
register_time string 可选 注册时间戳,单位s 用户自填 1520007038
last_login_time string 可选 上次登录时间戳,单位s 用户自填 1520017038
last_modify_time string 可选 用户信息的最后修改时间戳,单位s 用户自填 1520327038

behavior

字段名 字段类型 是否必需 字段含义 字段值枚举 字段值说明 字段值示例
item_id string 必需 内容ID 用户自填 需要与item表中的item_id相匹配 34513
item_type string 必需 内容的类型 image
article
video
shortvideo
item
recipe
audio
需要与item表中的item_type想匹配 article
bhv_type string 必需 行为类型,例如曝光、停留、点击、收藏、下载等 expose
click
正例数据click的条数需要小于负例数据expose的条数,否则系统会判断数据异常,无法启动服务 expose
trace_id string 必需 请求追踪/埋点ID。用于在AB实验时区分 调用了阿里推荐引擎 Alibaba
selfhold
1、调用了阿里推荐引擎而产生的行为数据,填Alibaba;没有调用阿里推荐引擎而产生的行为数据,填selfhold
2、主要用于控制台报表分析,效果对比
Alibaba
trace_info string 必需 请求埋点信息。一次推荐接口调用时会返回该信息,日志记录时带上即可 阿里推荐接口返回字段值 1、阿里流量必需,其它流量置空
2、智能推荐的查询接口返回中,会有trace_info字段,原样返回即可
阿里流量必需
bhv_time string 必需 行为发生的时间戳,单位s 用户自填 用户实际产生行为的时间 1520327038
scene_id string 推荐 场景ID 用户自填 1、用户产生行为的场景,在对应的item的场景ID中,单值
2、无场景区分需求,默认填1或置空
1001
bhv_value string 推荐 行为详情,例如点击次数,停留时长,购买件数等 用户自填 1、点击行为填1即可
2、曝光行为视业务需求,也可不填
3、其它行为类型请联系技术开发
500
user_id string 推荐 用户ID 用户自填 1、注册用户需要与user表中相匹配
2、未登录用户访问可不填
1234567
platform string 可选 客户端平台。 用户自填 ios/andriod/h5 ios
imei string 可选 用户设备ID,安卓(imei),IOS(idfa) 用户自填 1、注册用户需要和user表中相匹配
2、未登录用户无限制
123456789123456
app_version string 可选 app的版本号 用户自填 4.1.10
net_type string 可选 网络型号 用户自填 2G/3G/4G/WIFI 4G
ip string 可选 客户端IP信息 用户自填 234.45.13.14
login string 可选 是否登录用户 0
1
0:未登录
1:登录
1
report_src string 可选 上报来源类型 1
2
1:服务端,2:客户端。 2
device_model string 可选 设备型号 用户自填 iphoneX
longitude string 可选 位置经度 用户自填 128.4
latitude string 可选 位置纬度 用户自填 78.1
module_id string 可选 模块ID 用户自填 114
page_id string 可选 页面ID 用户自填 4
position string 可选 内容所在的位置信息 用户自填 5

behavior type

expose 曝光
click 点击
like 点赞
comment 评论
collect 收藏
stay 停留时长