为保证数据顺利快速分析,不同数据表需事先按照特定格式进行数据存储。本章节分别介绍V3的用户标签数据集、RFM模型、AIPL模型、行为数据集、商品标签数据集的数据表存储样例。
用户标签数据集样例
ADS大宽表样例:
user_id  | user_id_2  | user_id_3  | 性别  | 最近90天巧克力偏好  | 注册时间  | 年龄  | 最近30天消费金额  | ......  | 
|---|---|---|---|---|---|---|---|---|
a0001  | b0001  | c0001  | 男  | 0.8  | 2018/10/21  | 23  | 30  | ......  | 
a0002  | b0002  | c0002  | 女  | 0.5  | 2018/10/21  | 52  | 50  | ......  | 
以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。
user_id是表的主键,必选字段,为用户标签数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。其他字段属于用户属性字段,可用于透视分析等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
标签加工需求:
字段类型  | 加工方式  | 数据格式  | 调度需求  | 
|---|---|---|---|
文本型单枚举值  | 保留原值。  | string  | 大宽表建议日粒度更新。  | 
文本型多枚举值  | 保留原值。  | string  | |
日期型  | 保留原值。  | datetime、date  | |
数值型  | 保留原值。  | double、bigint  | 
商品标签数据集样例
ADS大宽表样例:
item_id  | 商品名  | 商品规格  | 购买门槛  | 上架时间  | 季节  | 价格  | 利润率  | ......  | 
|---|---|---|---|---|---|---|---|---|
A0001  | XXX夹克  | 均码  | 非会员  | 2021/01/20  | 春夏  | 1000  | 0.50  | ......  | 
A0002  | XXX外套  | S/M/L  | 会员  | 2021/01/20  | 冬  | 2000  | 0.30  | ......  | 
以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。
item_id是表的主键,必选字段,为商品标签数据集的商品标识,将作为货品推荐等操作中的商品唯一标识。建议采用SPU粒度的商品ID。
商品名是必选字段。
用于货品推荐时的附加要求:
表名、字段名中的英文均使用小写。
数据表保存于ADB3.0数据源。
商品个数≥10。
受众规模×商品池规模≤500亿。其中,受众为将要参与推荐的用户,商品池为从商品标签数据集筛选的候选商品范围。
建议只包含商品的静态属性标签,例如规格、系列等。统计类标签,例如最近90天销量,将会影响货品推荐的模型训练效果,若包含统计类标签,需要在创建算法模型时指出,以便在训练算法模型时排除。
若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目作为商品标签数据集的数据内容(类目ID为主键,包含类目名称等字段),将类目做为行为数据集的行为对象,然后创建算法模型。
标签加工需求:
字段类型  | 加工方式  | 数据格式  | 调度需求  | 
|---|---|---|---|
文本型单枚举值  | 保留原值。  | string  | 大宽表建议日粒度更新。  | 
日期型  | 保留原值。  | datetime、date  | |
数值型  | 保留原值。  | double、bigint  | 
RFM模型样例
RFM模型支持两种数据表:客户数据、交易数据。
客户数据
将最近N天的原始数据聚合成以客户为粒度的标签数据(聚合后的数据量建议保持在1亿行以内),表中每个客户只存在一条数据。
客户数据表样例:
user_id  | 最近一次消费日期  | 累计消费金额  | 累计消费次数  | user_id_2  | user_id_3  | user_id_...  | 
|---|---|---|---|---|---|---|
a0001  | 2019/8/23 12:36:54  | 345.55  | 2  | b0001  | c0001  | ......  | 
a0002  | 2018/7/12 15:36:54  | 356.1  | 1  | b0002  | c0001  | ......  | 
字段格式要求:
字段名  | 数据格式  | 描述  | 
|---|---|---|
user_id  | string  | 表的主键,必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。  | 
最近一次消费日期  | datetime、date  | 必选字段。  | 
累计消费金额  | double、bigint  | 必选字段。  | 
累计消费次数  | double、bigint  | 必选字段。  | 
user_id_2等  | string  | 可选字段。用户标识外的其他用户ID。  | 
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
交易数据
适用于分析小规模(建议1亿行以内)的交易数据,每一行表示一条用户交易记录,交易记录包含客户标识、交易日期、交易金额信息。
交易数据表样例:
order_id  | user_id  | 交易日期  | 交易金额  | user_id_2  | user_id_3  | user_id_...  | 
|---|---|---|---|---|---|---|
x1  | a0001  | 2019/6/24 12:56:54  | 124  | b0001  | ......  | |
x2  | a0002  | 2019/8/23 12:36:54  | 222.55  | b0002  | c0002  | ......  | 
x3  | a0003  | 2018/7/12 16:36:54  | 356.1  | b0003  | c0003  | ......  | 
字段格式要求:
字段名  | 数据格式  | 描述  | 
|---|---|---|
order_id  | string  | 表的主键,必选字段。订单ID。  | 
user_id  | string  | 必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。  | 
交易日期  | datetime、date  | 必选字段。  | 
交易金额  | double、bigint  | 必选字段。  | 
user_id_2等  | string  | 可选字段。用户标识外的其他用户ID。  | 
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
AIPL模型样例
若要从客户数据创建AIPL模型,客户数据表应包含AIPL规则相关字段。
例如,设定AIPL规则如下:
A:用户最近90天登录过官网,或注册时间在半年内。
I:用户最近90天有过收藏行为。
P:用户最近90天有过购买行为。
L:用户最近90天多次购买,且购买金额大于1000。
对应ADS大宽表样例:
user_id  | user_id_2  | 渠道  | 注册时间  | 最近90天消费金额  | 最近90天登录次数  | 最近90天收藏次数  | 最近90天购买次数  | ......  | 
|---|---|---|---|---|---|---|---|---|
a0001  | b0001  | 小程序  | 2020/10/10  | 500  | 1  | 2  | 1  | ......  | 
a0002  | b0002  | app  | 2020/10/20  | 3000  | 3  | 5  | 2  | ......  | 
a0003  | b0003  | 官网  | 2021/10/30  | 0  | 1  | 0  | 0  | ......  | 
以上所有字段均为样例字段,仅供参考,请根据AIPL规则和业务需要自定义添加,字段名均可自定义。
user_id是必选字段,为AIPL模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
同一个用户可以有多行数据,例如同一用户每个渠道一行。
标签加工需求:
字段类型  | 加工方式  | 数据格式  | 调度需求  | 
|---|---|---|---|
文本型单枚举值  | 保留原值。  | string  | 大宽表建议日粒度更新。  | 
文本型多枚举值  | 保留原值。  | string  | |
日期型  | 保留原值。  | datetime、date  | |
数值型  | 保留原值。  | double、bigint  | 
为使AIPL模型能区分渠道,渠道字段需要添加维表,维表结构参考下表:
id  | 渠道  | 
|---|---|
1  | 小程序  | 
2  | app  | 
3  | 官网  | 
4  | 微信  | 
......  | ......  | 
行为数据集样例
行为数据集的数据根据不同的用途,要求有所不同:
下面将分别给出两种用途的行为数据集样例,然后说明字段要求,并标明哪些是用于指定用途时的特殊要求。请根据您的用途准备数据。当您引入新的需求时,您也可以对原数据做对应的调整,使其符合新需求的数据要求。
用于用户洞察时,ADS行为数据表样例:
user_id
user_id_2
user_id_...
行为类型
行为时间
行为次数
行为金额
行为渠道
行为对象属性
行为对象属性值
a0001
b0006
c0006
加购
20211023
5
500
官网
一级类目
女装
a0002
b0002
c0002
浏览
20201225
10
1000
官网
二级类目
家居服
a0003
b0003
c0003
收藏
20201023
2
2000
app
品牌
品牌A
a0004
b0004
c0004
购买
20200818
1
3000
小程序
商品
商品A
user_id
user_id_2
user_id_...
行为类型
行为时间
行为次数
行为金额
行为渠道
行为对象属性
行为对象属性值
行为对象属性值ID
a0001
b0001
c0001
购买
2021-01-01 10:00:01
1
1000
门店1
商品
商品A
A0001
a0002
b0002
c0002
购买
2021-01-01 10:01:01
1
2000
小程序
商品
商品B
A0002
a0003
b0003
c0003
购买
2021-01-01 10:02:01
1
2000
官网
商品
商品B
A0002
a0004
b0004
c0004
购买
2021-01-01 10:03:01
1
3000
app
商品
商品C
A0003
字段格式要求:
字段名  | 数据格式  | 描述  | 
|---|---|---|
user_id  | string  | 必选字段。行为数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。 
  | 
user_id_2等  | string  | 可选字段。用户标识外的其他用户ID。  | 
行为类型  | string  | 必选字段。 
  | 
行为时间  | 
  | 必选字段。 说明  
  | 
行为次数  | double、bigint  | |
行为金额  | double、bigint  | |
行为渠道  | string  | |
行为对象属性  | string  | 必选字段。行为对象属性、行为对象属性值为一对key-value,可以记录商品、品牌、类目等等。 
  | 
行为对象属性值  | string  | |
行为对象属性值ID  | string  | 
  | 
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
同一个用户可以有多行数据,行为时间、行为类型、行为渠道、行为对象中任一条件不同均需单独作为一行。
用于复购预测、货品推荐时的附加要求:
表名、字段名中的英文均使用小写。
数据表保存于ADB3.0数据源。
购买类型的行为数据条数≥100万,时间跨度≥2×365天,对应的去重后的用户数≥50万且≤300万。
不支持0复购场景,即任意日期开始的过去365天内发生过购买行为的用户中,需要有用户在接下去的预测周期内发生过复购。
对于货品推荐,若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目做为行为数据集的行为对象(行为对象属性、行为对象属性值、行为对象属性值ID分别记录“类目”、类目名称、类目ID),将类目作为商品标签数据集的数据内容,然后创建算法模型。
为使行为数据集在行为筛选时能区分行为类型、行为渠道、行为对象,需要添加相应的维表。
行为类型、行为渠道的维表结构参考下表:
id
行为类型
1
购买
2
加购
3
浏览
4
收藏
......
......
行为对象属性的维表结构分两种:
每个属性一个维表:将同一个属性的属性值保存为一列,维表结构参考上表。若属性为商品,可以利用商品标签表作为维表。
所有属性一个维表:所有属性的属性值保存在同一个表,因此行为对象属性、行为对象属性值各保存为一列,维表结构参考下表:
id
行为对象属性
行为对象属性值
1
一级类目
女装
2
一级类目
男装
3
二级类目
外套
4
二级类目
裤子
5
二级类目
连衣裙
......
......
......