全部产品

数据采集2.0

更新时间:2020-11-06 10:17:37

行为数据上报给用户带来怎样的好处?

  • 可以了解终端用户对搜索结果的反应(浏览,点击,停留,点赞,分享,收藏,购买等行为),从而可以为优化搜索效果提供方向指引。
  • 可以在搜索应用的数据统计功能中,看到为该应用统计的各种搜索报表(如PV, IPV, CTR等),为用户的运营工作带来帮助。
  • 通过开放搜索为用户提供的算法平台,可以将这些搜索行为反馈数据应用在搜索排序算法模型训练中,不断地提升搜索效果。

注意事项

  • 数据,目前主要指终端用户对搜索结果的行为反馈数据
  • 采集,目前主要指通过开放搜索SDK上报搜索行为数据(Server端),App端、Web暂不支持,敬请期待
  • 数据采集2.0相较于老的数据采集功能,在传参上更简单更便于理解,SDK使用上也更便捷。新用户如果有需求,请直接使用此文档中的行为数据上报字段进行传参。Java 3.4.0SDK 以及PHP 3.2.0SDK 支持数据采集2.0功能。)

开通数据采集

  1. 控制台—->功能扩展—->数据采集,进入数据采集页面:1

  2. 选择需要开通数据采集功能的应用,勾选“开通server端数据采集服务”和“阅读”,开通数据采集功能:2

  3. 数据采集功能开通过程可能需要几分钟,等待开通状态为“开通成功”后即可上传行为数据:3

上报行为数据

说明:用户在开放搜索控制台开通行为采集功能之后,建议通过SDK手动上传行为数据。下文详细介绍了行为数据包含的字段类型与含义。
步骤

  1. SDK上报有9个必须字段
    imei 或 user_id(注:二者不能同时为空)
    biz_id
    trace_id
    trace_info
    rn
    bhv_type
    bhv_time
    item_id
    item_type
  2. API上报: 除了上面的必须字段之外,外加1个reach_time

  3. SDK/API上报行为数据demo可点击此处进行查看。

行为数据字段定义

ID 字段名 字段类型 字段含义 字段值 是否必须
1 app_version STRING 业务侧网站或移动APP的版本号 非必须
2 sdk_type STRING 数据上报使用的sdk类型。该字段是开放搜索为了区分服务端上报和移动端采集的sdk而设置的 非必须
如果是通过开放搜索sdk做上报,会默认设置该值为”opensearch_sdk”
3 sdk_version STRING 数据上报使用的sdk版本号 非必须
如果是通过开放搜索sdk做上报,会默认设置该值
4 login STRING 终端用户在业务侧网站或移动APP上是否是登录状态 取值为0或1。
含义为:0(未登录), 1(登录)
非必须
5 user_id STRING 用于唯一标识终端用户的一个ID。 非必须
imei,user_id不能同时为空
6 imei STRING 终端用户设备ID(值可以为:imei,device_id,idfa) 非必须
imei,user_id不能同时为空
7 biz_id BIGINT 业务侧用于区分不同业务的一个数值ID。一般,业务侧的一个biz_id对应一个开放搜索应用 必须
8 trace_id STRING 用于区分行为针对的doc是来自哪个搜索服务商输出的结果 如果是来自开放搜索的结果,该字段值设置为Alibaba,如果是来自其他服务商的结果,业务侧可以自己取名字 必须
9 trace_info STRING 该值来自开放搜索在搜索结果中返回
ops_request_misc的值,原样回传即可
必须
注: trace_id为Alibaba时必须要回传,内部用于核对是由开放搜索输出的结果
10 rn STRING 用于标识一个搜索pv。 该值来自开放搜索在搜索结果中返回的request_id的值,原样回传即可。 必须
11 item_id STRING doc的主键值。 该值为开放搜索应用中主表主键值 必须
12 item_type STRING doc的业务类型 可设置的值见下文【关于item_type定义 必须
13 bhv_type STRING 行为类型,例如曝光、停留、浏览、收藏、下载等 可设置的值见下文【常用行为类型 必须
14 bhv_value STRING 行为数量,例如停留时长,购买件数等 可设置的值见下文【常用行为类型 非必须
15 bhv_time STRING 行为发生的时间戳,单位s 必须
16 bhv_detail STRING 对行为的一些描述详情。 格式:key=value{,key=value} 表示可以是1个或多个key=value对,注意要做urlencode。
当前可设置的值见下文【常用行为类型
非必须
17 ip STRING 行为发生的手机或终端的ip 非必须
建议设置
18 longitude STRING 行为发生位置的经度 非必须
建议设置
19 latitude STRING 行为发生位置的纬度 非必须
建议设置
20 session_id STRING 用户的一次会话id 非必须
建议设置
21 spm STRING 提供给业务用来跟踪行为所在的页面模块的位置 编码格式为a.b.c.d.e, 分别代表站点ID,页面ID, 模块ID, 位置ID。 非必须
22 report_src STRING 用于区分上报来源 取值为1,2,3。含义:1(通过开放搜索SDK上报) , 2(通过移动端SDK采集), 3(通过开放搜索API上报 ) 非必须
23 mac STRING 手机或终端设备的网卡MAC地址 非必须
24 brand STRING 手机或终端的品牌 非必须
建议设置
25 device_model STRING 手机或终端的机型 非必须
26 resolution STRING 手机或终端的屏幕分辨率 非必须
27 carrier STRING 手机或终端的移动运营商 非必须
28 access STRING 手机或终端连接的网络 非必须
29 access_subtype STRING 手机或终端连接的网络类型 非必须
30 os STRING 手机或终端的操作系统 非必须
31 os_version STRING 手机或终端操作系统的版本 非必须
32 language STRING 手机或终端设置的语言类型 非必须
33 phone_md5 STRING 用户手机号的md5值 非必须
34 reserve1 STRING 预留字段 非必须
35 reserve2 STRING 预留字段 非必须
36 reach_time BIGINT 该数据到达服务端的时间,格式:yyyyMMddHHmmss 必须
如果是通过开放搜索sdk做上报,SDK会自动设置, 如果是通过开放搜索API做上报,需要设置

关于item_type定义

ID item_type 业务含义
1 goods 物品、商品
2 article 文章、博客、小说
3 ask 问答
4 bbs 论坛帖子
5 download 下载
6 image 图片
7 media 多媒体(包括电影、电视、音乐等)
8 recipe 美食、菜谱
9 news 新闻资讯
10 institution 组织机构
11 other 其他

常用行为类型

ID bhv_type 含义 bhv_value bhv_detail
1 expose 曝光 置空 置空
2 stay 停留 停留时长(单位秒) 置空
3 click 点击 点击次数。
默认值: 1
置空
4 cart 加入购物车,加入书架,加入歌单 置空 置空
5 buy 购买 购买件数。
默认值: 1
buy_price=12,price_unit=RMB
注:要做urlencode;buy_price表示购买(即:下单)时候的物品价格, 默认price_unit(价格单位)是RMB
6 collect 收藏 置空 置空
7 like 点赞 点赞次数
默认值:1
置空
8 dislike 点衰 点衰次数
默认值:1
置空
9 comment 评论 评论次数
默认值:1
置空
10 share 分享、转发 分享/转发次数
默认值:1
置空
11 subscribe 关注、订阅 置空 置空
12 gift 送礼物 置空 置空
13 download 下载 置空 置空
14 read 阅读 置空 置空
15 tip 打赏 置空 置空
16 complain 投诉 置空 置空

查看数据报告

当数据采集服务开通后,并上传了一定量的行为数据,可在数据采集页中查看数据状态和数据质量:4

数据状态

数据状态分为“正常,可用”和“异常,不可用”,正常是指数据质量部分无任何报错,即所有校验皆通过,如果有报错则是“异常,不可用”;当数据状态为“异常,不可用”时,可能影响人气模型、类目预测的创建与训练
数据异常状态5数据正常状态6

数据质量

数据质量验证用于输出后台校验项有错误时则控制台显示对应的错误信息,但校验项没有错误时不在控制台显示:7