全部产品
云市场
云游戏

新闻行业

更新时间:2020-09-25 16:14:31

数据描述

对于新闻型行业的场景,需要准备3张数据表。

  1. 内容表(item):最近场景内全部可以被推荐的新闻的全量表。由于item数量受quota限制,建议您上传前做去重处理。item_id与item_type二者同时唯一确定一条item。
  2. 用户表(user):最近系统的全部注册用户表。由于user数量受quota限制,建议您上传前做去重处理。根据您内部的用户标记方法,可以选择方案一均通过imei唯一确认一名用户,方案二通过user_id和imei组合确认一名用户(如登录用户使用user_id唯一标记,未登录用户使用imei唯一标记)。请务必确认用户的唯一性并在请求推荐结果时指定用户的唯一标识信息,否则将无法进行千人千面的推荐。
  3. 行为表(behavior):最近一段时间场景的行为数据。我们建议您提供1-2周的数据。如果是全新场景,没有历史数据;或者因为技术原因无法提供行为数据,可以使用我们提供的测试数据,但是在开始一段时间(大约2周)内,模型的效果可能会不太理想,但随着数据的积累,会逐渐上升并最终稳定。

对于这三张表的选填字段,我们建议您尽量上传。在保证选填字段有效性的条件下,这些选填字段越多越准确,模型的效果越好。未填写部分系统内部将渲染成默认值。

表结构

下述表结构中,
是否必填=”必填”的字段必须要上报到智能推荐,每个必填字段影响较大,其字段具体作用请详细阅读”字段值说明”。

item

字段名 字段类型 是否必填 字段含义 字段值枚举 字段值说明 字段值示例
item_id string 必填 新闻唯一标识ID 用户自填 item_id+item_type作为一条数据的唯一标识 34513
item_type string 必填 新闻的类型 image
article
video
shortvideo
item
recipe
audio
(如当前类型不满足,请联系技术人员沟通解决方案)
必须与示例中的类型相匹配,否则会混排失效 article
status string 必填 新闻状态是否可推荐 0
1
1.status=”1”时,item可推荐出来。
2.status=”0”时,item不会推荐出来。
3.注意:字段值上报为”0”,该item不会推荐出来。重新把值改为”1”(item重新上架),需要等一个小时的调度周期。
4.注意:item下架为实时下架,把status的值改为”0”即可。
1
duration string 视频行业必填,其它行业非必填 时长(秒级,大于等于0,小于 3600 * 10) 用户自填 视频总时长 1000
scene_id string 必填 场景id。
新闻投放的不同地方,可以理解成是对物品的一个分类的id。不同的页面,用户访问类型不一样,都可以做成不同的场景id。
用户自填 1、按照字母数字组合方式定义,建议使用首拼或英文与数字组合形式增强可读性
2、场景ID中不能含有英文冒号
3、场景ID不能为-102(内部预留值)
4、当推荐仅有单场景时,该字段置1。
5、注意:item表中的场景id可以为多值,用英文逗号分隔,如字段值示例。
用于不同投放页面,投放场景使用详解
a101,b102
pub_time string 必填 内容发布时的时间戳(秒级),本字段用于判断内容是否为最新发布 用户自填 对内容有时效性需求的用户,必填。(用于新品的推荐策略) 1520327038
expire_time string 内容及新闻行业必填 内容失效时间戳(秒级) 用户自填 1、当前服务器时间大于该字段时,item将不被继续推荐。
2、如果所有数据均失效,服务无法启动。
3、置为空代表永不失效
1520327038
last_modify_time string 建议填写 内容信息的最后修改时间戳(秒级) 用户自填 如果用户对已经发布了的商品做了较大的更新,同时有时效性的需求,可以更新此字段。同pub time功能类似,共同作用于新品链路。 1520327038
title string 建议填写 内容标题 用户自填 用于语义层面深入分析,置空会损失部分算法效果,建议填写 数字时代是最大机遇
weight string 建议填写 item的加权。
注意:1、要加权的商品填:100、不加权的商品填:1。
2、仅支持填入100或1,其他值是非法的。
3、建议加权的item数量<=item总数的10%。
用户自填 1、置空后,默认值为1
2、设置高权重的物品,将有更高的概率优先推荐
1
category_level string 建议填写 类目层级数,例如3级类目 用户自填 如果和category_path数据不匹配,会影响打散功能 3
category_path string 建议填写 类目路径,下划线联接 用户自填 1、类目路径,支持多级类目,用下划线联接
2、不可出现英文逗号,英文冒号
(用于打散策略
12_1024_56
tags string 建议填写 标签,多个标签使用英文逗号分隔 用户自填 1、主要用于描述物品的特征,由业务方自行运营物品的标签库
2、算法模型会基于标签进行特征分析,根据行为训练用户热点分布。
3、单条新闻标签数不能超过100个,标签池总个数建议不超过50000个 。
4、如果标签属于业务敏感数据,建议映射到数字脱敏上报。
数字化,人工智能,AI
author string 建议填写 作者表,多个标签使用英文逗号分隔,单条内容作者数不能超过100个 用户自填
content string 可选 内容正文 用户自填 通常为正文关键片段,最长5000个中英文字符,主要用于语义分析 北京时间6月10日晚,联合国发布全球数字经济未来发展纲领性报告——《数字相互依存的时代——联合国数字合作高级别小组报告》。联合国数字合作高级别小组联合主席马云表示:“我相信数字时代是我们面临的最大机遇。我相信这个新时代的最大风险是错失机会的风险。”
channel string 可选 新闻对应的频道,如经济,为单值 用户自填
organization string 可选 机构列表,多个标签使用英文逗号分隔 用户自填
pv_cnt string 可选 一个月内曝光次数 用户自填 启动时,如果当前场景行为数据比较稀疏,可以将平台其他场景的行为统计数据放入这些字段,不要求实时性。模型稳定后,如果维护这些字段成本较高,可以低优先级处理 100000
click_cnt string 可选 一个月内点击次数 用户自填 不要求实时性,优先级可以放低 1000
like_cnt string 可选 一个月内点赞次数 用户自填 不要求实时性,优先级可以放低 100
unlike_cnt string 可选 一个月内踩次数 用户自填 不要求实时性,优先级可以放低 100
comment_cnt string 可选 一个月内评论次数 用户自填 不要求实时性,优先级可以放低 100
collect_cnt string 可选 一个月内收藏次数 用户自填 不要求实时性,优先级可以放低 100
share_cnt string 可选 一个月内分享次数 用户自填 不要求实时性,优先级可以放低 100
download_cnt string 可选 一个月内下载次数 用户自填 不要求实时性,优先级可以放低 100
tip_cnt string 可选 一个月内打赏数 用户自填 不要求实时性,优先级可以放低 100
subscribe_cnt string 可选 一个月内关注数 用户自填 不要求实时性,优先级可以放低 100
source_id string 可选 物料经由哪个平台进入场景 用户自填 比如天猫,淘宝等,这个字段可以是平台的id,例如淘宝1,天猫2 1
country string 可选 国家编码 用户自填 ISO3166-1alpha-3 编码 “CHN”(中国)
city string 可选 城市名称 用户自填 杭州、上海
features string 可选 物料特征(字符串型) 用户自填 英文逗号分隔的物料特征;该特征是描述性的
num_features string 可选 物料特征(数值型) 用户自填 英文逗号分隔的数值型物料特征;必须保证所有物料的该字段逗号个数一致,且字段对齐

user

字段名 字段类型 是否必填 字段含义 字段值枚举 字段值说明 字段值示例
user_id string 必填 用户唯一ID 用户自填 1、注册用户必填
2、user_id 可作为一个用户的唯一标识
1234567
user_id_type string 建议填写 用户注册类型 1
2
3
4
1:app注册账号,2:手机号,3:微信号,4:其它 2
imei string 未登录用户必填 安卓:MD5(imei),IOS:MD5(idfa) 用户自填 1、非注册用户必填
2、按照指定要求,mac地址,设备号等无效,会无法使用内部用户画像信息,仅保留曝光过滤功能
imei358800091015835
md5后74f25e604e1a9dde7471fe2e25ae54d0
idfa41B2FD07-695A-4A27-8D26-C30ECE6F7EAD
md5后06e1565409c9fc4887036b97442135ee
third_user_name string 建议填写 第三方用户名称 用户自填 jack
third_user_type string 建议填写 第三方平台名称 用户自填 wechat
phone_md5 string 建议填写 用户手机号的md5值,长度为32位 用户自填 d41d8cd98f00b204e9800998ecf8427e
gender string 建议填写 性别 male
female
unknown
如果为敏感数据,可进行映射上报,如0-男,1-女 ,2-未知 male
age string 建议填写 年龄 用户自填 22
age_group string 建议填写 年龄段 用户自填 20-25
country string 建议填写 国家编码 用户自填 ISO3166-1 alpha-3 编码 “CHN”(中国)
city string 建议填写 城市名称 用户自填 杭州、上海
ip string 建议填写 最后登录IP 用户自填 202.113.34.16
device_model string 建议填写 设备型号 用户自填 iphoneX
tags string 建议填写 用户tags,多个tag使用英文逗号分隔 用户自填 对用户的标签描述 足球,健身,户外
source string 建议填写 用户来源 用户自填 今日头条引流
content string 可选 用户描述 用户自填
register_time string 可选 注册时间戳,单位s 用户自填 1520007038
last_login_time string 可选 上次登录时间戳,单位s 用户自填 1520017038
last_modify_time string 可选 用户信息的最后修改时间戳,单位s 用户自填 1520327038
features string 可选 用户特征(字符串型) 用户自填 英文逗号分隔的用户描述性特征,比如画像等
num_features string 可选 用户特征(数值型) 用户自填 英文逗号分隔的数值型用户特征;必须保证所有物料的该字段逗号个数一致,且字段对齐

behavior

字段名 字段类型 是否必填 字段含义 字段值枚举 字段值说明 字段值示例
item_id string 必填 内容ID 用户自填 需要与item表中的item_id相匹配 34513
item_type string 必填 内容的类型 image
article
video
shortvideo
item
recipe
audio
需要与item表中的item_type相匹配 image
bhv_type string 必填 行为类型,例如曝光、停留、点击、收藏、下载等 expose
click
正例数据click的条数需要小于负例数据expose的条数,否则系统会判断数据异常,无法启动服务 expose
trace_id string 必填 请求追踪/埋点ID。用于在AB实验时区分调用了阿里推荐引擎 Alibaba
selfhold
1、调用了阿里推荐引擎而产生的行为数据,填Alibaba;基于自研/运营推荐产生的行为数据,填selfhold。
2、主要用于控制台报表分析,效果对比。
Alibaba
trace_info string 必填 请求埋点信息。一次推荐接口调用时将返回该信息,日志记录时带上即可 用户自填 1、trace_id=selfhold时,trace_info填1即可。
2、trace_id=Alibaba。在获取推荐结果时,会返回此item的trace_info。
trace_id=Alibaba说明这条行为数据,是对从AIRec推荐出来的这条item而产生的行为。回传行为数据时把这个item对应的trace_info原样回传即可。
1007.5911.12351.1002000:::::::
scene_id string 必填 场景ID 用户自填 1、用户产生行为的场景,在对应的item的场景ID中,单值
2、行为表的scene_id要包含于item表中的scene_id。
3、无场景区分需求,默认填1,若无法追踪到行为的具体场景ID,填-102。具体参考投放场景使用指南
a101
bhv_time string 建议填写 行为发生的时间戳(秒级) 用户自填 用户实际产生行为的时间 1520327038
bhv_value string 建议填写 行为详情,例如点击次数,停留时长,购买件数等 用户自填 1、点击行为填1即可
2、曝光行为视业务需求,也可不填
3、其它行为类型请联系技术开发
500
user_id string 已登录用户必填 用户ID 用户自填 1、注册用户需要与user表中相匹配
2、未登录用户访问可不填
1234567
platform string 可选 客户端平台。 用户自填 ios/andriod/h5 ios
imei string 未登录用户必填 安卓:MD5(imei),IOS:MD5(idfa) 用户自填 1、非注册用户必填
2、按照指定要求,mac地址,设备号等无效,会无法使用内部用户画像信息,仅保留曝光过滤功能
3、32位MD5值
e2fcdb0f4dce45e35fe2823d797333ec
app_version string 可选 app的版本号 用户自填 4.1.10
net_type string 可选 网络型号 用户自填 2G/3G/4G/WIFI 4G
ip string 可选 客户端IP信息 用户自填 234.45.13.14
login string 可选 是否登录用户 0
1
0:未登录
1:登录
1
report_src string 可选 上报来源类型 1
2
1:服务端,2:客户端。 2
device_model string 可选 设备型号 用户自填 iphoneX
longitude string 可选 位置经度 用户自填 128.4
latitude string 可选 位置纬度 用户自填 78.1
module_id string 可选 模块ID 用户自填 114
page_id string 可选 页面ID 用户自填 4
position string 可选 内容所在的位置信息 用户自填 5
message_id string 可选 一条行为的唯一标识 用户自填 若不填写内部将取item_id、item_type、user_id、imei、bhv_type、bhv_time等字段组合去重 5

behavior type

expose 曝光
click 点击
like 点赞
unlike
comment 评论
collect 收藏
stay 停留时长
share 分享
download 下载
tip 打赏
subscribe 关注
dislike 负反馈,具体使用参考负反馈功能详解

建表语句

如使用MaxCompute服务进行启动数据上报,可参考如下的建表语句:

  1. ---创建新闻型的行为表
  2. DROP TABLE IF EXISTS behavior_table;
  3. CREATE TABLE IF NOT EXISTS `behavior_table`
  4. (
  5. trace_id STRING COMMENT "请求追踪/埋点ID"
  6. ,trace_info STRING COMMENT "请求埋点信息"
  7. ,platform STRING COMMENT "客户端平台"
  8. ,device_model STRING COMMENT "设备型号"
  9. ,imei STRING COMMENT "设备ID"
  10. ,app_version STRING COMMENT "app的版本号"
  11. ,net_type STRING COMMENT "网络型号"
  12. ,longitude STRING COMMENT "位置经度"
  13. ,latitude STRING COMMENT "位置纬度"
  14. ,ip STRING COMMENT "客户端IP信息"
  15. ,login STRING COMMENT "是否登录用户"
  16. ,report_src STRING COMMENT "上报来源类型"
  17. ,scene_id STRING COMMENT "场景ID"
  18. ,user_id STRING COMMENT "用户ID"
  19. ,item_id STRING COMMENT "内容ID"
  20. ,item_type STRING COMMENT "新闻的类型"
  21. ,module_id STRING COMMENT "模块ID"
  22. ,page_id STRING COMMENT "页面ID"
  23. ,position STRING COMMENT "新闻所在的位置信息"
  24. ,bhv_type STRING COMMENT "行为类型"
  25. ,bhv_value STRING COMMENT "行为详情"
  26. ,bhv_time STRING COMMENT "行为发生的时间戳"
  27. )
  28. PARTITIONED BY
  29. (
  30. ds STRING
  31. )
  32. LIFECYCLE 30
  33. ;
  34. ---创建新闻型的用户表
  35. DROP TABLE IF EXISTS user_table;
  36. CREATE TABLE IF NOT EXISTS `user_table`
  37. (
  38. user_id STRING COMMENT "用户唯一ID"
  39. ,user_id_type STRING COMMENT "用户注册类型"
  40. ,third_user_name STRING COMMENT "第三方用户名称"
  41. ,third_user_type STRING COMMENT "第三方平台名称"
  42. ,phone_md5 STRING COMMENT "用户手机号的md5值"
  43. ,imei STRING COMMENT "用户设备ID"
  44. ,content STRING COMMENT "用户内容"
  45. ,gender STRING COMMENT "性别"
  46. ,age STRING COMMENT "年龄"
  47. ,age_group STRING COMMENT "年龄段"
  48. ,country STRING COMMENT "国家"
  49. ,city STRING COMMENT "城市"
  50. ,ip STRING COMMENT "最后登录IP"
  51. ,device_model STRING COMMENT "设备型号"
  52. ,register_time STRING COMMENT "注册时间戳"
  53. ,last_login_time STRING COMMENT "上次登录时间戳"
  54. ,last_modify_time STRING COMMENT "用户信息的最后修改时间戳"
  55. ,tags STRING COMMENT "用户tags"
  56. ,source STRING COMMENT "用户来源"
  57. ,features STRING COMMENT "附加用户特征(字符串型)"
  58. ,num_features STRING COMMENT "附加用户特征(数值型)"
  59. )
  60. PARTITIONED BY
  61. (
  62. ds STRING
  63. )
  64. LIFECYCLE 30
  65. ;
  66. ---创建新闻型的itme
  67. DROP TABLE IF EXISTS item_table;
  68. CREATE TABLE IF NOT EXISTS `item_table`
  69. (
  70. item_id STRING COMMENT '内容唯一标识ID'
  71. ,item_type STRING COMMENT '内容的类型'
  72. ,title STRING COMMENT '内容标题'
  73. ,content STRING COMMENT '内容正文'
  74. ,user_id STRING COMMENT '发布用户ID'
  75. ,pub_time STRING COMMENT '发布时间'
  76. ,status STRING COMMENT '是否可推荐'
  77. ,expire_time STRING COMMENT '内容失效时间戳,单位s'
  78. ,last_modify_time STRING COMMENT '内容信息的最后修改时间戳,单位s'
  79. ,scene_id STRING COMMENT '场景ID'
  80. ,duration STRING COMMENT '时长,秒'
  81. ,category_level STRING COMMENT '类目层级数,例如3级类目'
  82. ,category_path STRING COMMENT '类目路径,下划线联接'
  83. ,tags STRING COMMENT '标签,多个标签使用英文逗号分隔'
  84. ,channel STRING COMMENT '频道,多个标签使用英文逗号分隔'
  85. ,organization STRING COMMENT '机构列表,多个标签使用英文逗号分隔'
  86. ,author STRING COMMENT '作者列表,多个标签使用英文逗号分隔'
  87. ,pv_cnt STRING COMMENT '一个月内曝光次数'
  88. ,click_cnt STRING COMMENT '一个月内点击次数'
  89. ,like_cnt STRING COMMENT '一个月内点赞次数'
  90. ,unlike_cnt STRING COMMENT '一个月内踩次数'
  91. ,comment_cnt STRING COMMENT '一个月内评论次数'
  92. ,collect_cnt STRING COMMENT '一个月内收藏次数'
  93. ,share_cnt STRING COMMENT '一个月内分享次数'
  94. ,download_cnt STRING COMMENT '一个月内下载次数'
  95. ,tip_cnt STRING COMMENT '一个月内打赏数'
  96. ,subscribe_cnt STRING COMMENT '一个月内关注数'
  97. ,source_id STRING COMMENT '物料经由哪个平台进入场景'
  98. ,country STRING COMMENT '国家编码'
  99. ,city STRING COMMENT '城市名称'
  100. ,features STRING COMMENT '物料离散特征'
  101. ,num_features STRING COMMENT '物料连续特征'
  102. ,weight STRING COMMENT 'item加权'
  103. )
  104. PARTITIONED BY
  105. (
  106. ds STRING
  107. )
  108. LIFECYCLE 30
  109. ;