为保证数据顺利快速分析,不同数据表需事先按照特定格式进行数据存储。本章节分别介绍V3的用户标签数据集、RFM模型、AIPL模型、行为数据集、商品标签数据集的数据表存储样例。
用户标签数据集样例
ADS大宽表样例:
user_id | user_id_2 | user_id_3 | 性别 | 最近90天巧克力偏好 | 注册时间 | 年龄 | 最近30天消费金额 | ...... |
---|---|---|---|---|---|---|---|---|
a0001 | b0001 | c0001 | 男 | 0.8 | 2018/10/21 | 23 | 30 | ...... |
a0002 | b0002 | c0002 | 女 | 0.5 | 2018/10/21 | 52 | 50 | ...... |
以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。
user_id是表的主键,必选字段,为用户标签数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。其他字段属于用户属性字段,可用于透视分析等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
标签加工需求:
字段类型 | 加工方式 | 数据格式 | 调度需求 |
---|---|---|---|
文本型单枚举值 | 保留原值。 | string | 大宽表建议日粒度更新。 |
文本型多枚举值 | 保留原值。 | string | |
日期型 | 保留原值。 | datetime、date | |
数值型 | 保留原值。 | double、bigint |
商品标签数据集样例
ADS大宽表样例:
item_id | 商品名 | 商品规格 | 购买门槛 | 上架时间 | 季节 | 价格 | 利润率 | ...... |
---|---|---|---|---|---|---|---|---|
A0001 | XXX夹克 | 均码 | 非会员 | 2021/01/20 | 春夏 | 1000 | 0.50 | ...... |
A0002 | XXX外套 | S/M/L | 会员 | 2021/01/20 | 冬 | 2000 | 0.30 | ...... |
以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。
item_id是表的主键,必选字段,为商品标签数据集的商品标识,将作为货品推荐等操作中的商品唯一标识。建议采用SPU粒度的商品ID。
商品名是必选字段。
用于货品推荐时的附加要求:
表名、字段名中的英文均使用小写。
数据表保存于ADB3.0数据源。
商品个数≥10。
受众规模×商品池规模≤500亿。其中,受众为将要参与推荐的用户,商品池为从商品标签数据集筛选的候选商品范围。
建议只包含商品的静态属性标签,例如规格、系列等。统计类标签,例如最近90天销量,将会影响货品推荐的模型训练效果,若包含统计类标签,需要在创建算法模型时指出,以便在训练算法模型时排除。
若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目作为商品标签数据集的数据内容(类目ID为主键,包含类目名称等字段),将类目做为行为数据集的行为对象,然后创建算法模型。
标签加工需求:
字段类型 | 加工方式 | 数据格式 | 调度需求 |
---|---|---|---|
文本型单枚举值 | 保留原值。 | string | 大宽表建议日粒度更新。 |
日期型 | 保留原值。 | datetime、date | |
数值型 | 保留原值。 | double、bigint |
RFM模型样例
RFM模型支持两种数据表:客户数据、交易数据。
客户数据
将最近N天的原始数据聚合成以客户为粒度的标签数据(聚合后的数据量建议保持在1亿行以内),表中每个客户只存在一条数据。
客户数据表样例:
user_id | 最近一次消费日期 | 累计消费金额 | 累计消费次数 | user_id_2 | user_id_3 | user_id_... |
---|---|---|---|---|---|---|
a0001 | 2019/8/23 12:36:54 | 345.55 | 2 | b0001 | c0001 | ...... |
a0002 | 2018/7/12 15:36:54 | 356.1 | 1 | b0002 | c0001 | ...... |
字段格式要求:
字段名 | 数据格式 | 描述 |
---|---|---|
user_id | string | 表的主键,必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。 |
最近一次消费日期 | datetime、date | 必选字段。 |
累计消费金额 | double、bigint | 必选字段。 |
累计消费次数 | double、bigint | 必选字段。 |
user_id_2等 | string | 可选字段。用户标识外的其他用户ID。 |
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
交易数据
适用于分析小规模(建议1亿行以内)的交易数据,每一行表示一条用户交易记录,交易记录包含客户标识、交易日期、交易金额信息。
交易数据表样例:
order_id | user_id | 交易日期 | 交易金额 | user_id_2 | user_id_3 | user_id_... |
---|---|---|---|---|---|---|
x1 | a0001 | 2019/6/24 12:56:54 | 124 | b0001 | ...... | |
x2 | a0002 | 2019/8/23 12:36:54 | 222.55 | b0002 | c0002 | ...... |
x3 | a0003 | 2018/7/12 16:36:54 | 356.1 | b0003 | c0003 | ...... |
字段格式要求:
字段名 | 数据格式 | 描述 |
---|---|---|
order_id | string | 表的主键,必选字段。订单ID。 |
user_id | string | 必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。 |
交易日期 | datetime、date | 必选字段。 |
交易金额 | double、bigint | 必选字段。 |
user_id_2等 | string | 可选字段。用户标识外的其他用户ID。 |
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
AIPL模型样例
若要从客户数据创建AIPL模型,客户数据表应包含AIPL规则相关字段。
例如,设定AIPL规则如下:
A:用户最近90天登录过官网,或注册时间在半年内。
I:用户最近90天有过收藏行为。
P:用户最近90天有过购买行为。
L:用户最近90天多次购买,且购买金额大于1000。
对应ADS大宽表样例:
user_id | user_id_2 | 渠道 | 注册时间 | 最近90天消费金额 | 最近90天登录次数 | 最近90天收藏次数 | 最近90天购买次数 | ...... |
---|---|---|---|---|---|---|---|---|
a0001 | b0001 | 小程序 | 2020/10/10 | 500 | 1 | 2 | 1 | ...... |
a0002 | b0002 | app | 2020/10/20 | 3000 | 3 | 5 | 2 | ...... |
a0003 | b0003 | 官网 | 2021/10/30 | 0 | 1 | 0 | 0 | ...... |
以上所有字段均为样例字段,仅供参考,请根据AIPL规则和业务需要自定义添加,字段名均可自定义。
user_id是必选字段,为AIPL模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
同一个用户可以有多行数据,例如同一用户每个渠道一行。
标签加工需求:
字段类型 | 加工方式 | 数据格式 | 调度需求 |
---|---|---|---|
文本型单枚举值 | 保留原值。 | string | 大宽表建议日粒度更新。 |
文本型多枚举值 | 保留原值。 | string | |
日期型 | 保留原值。 | datetime、date | |
数值型 | 保留原值。 | double、bigint |
为使AIPL模型能区分渠道,渠道字段需要添加维表,维表结构参考下表:
id | 渠道 |
---|---|
1 | 小程序 |
2 | app |
3 | 官网 |
4 | 微信 |
...... | ...... |
行为数据集样例
行为数据集的数据根据不同的用途,要求有所不同:
下面将分别给出两种用途的行为数据集样例,然后说明字段要求,并标明哪些是用于指定用途时的特殊要求。请根据您的用途准备数据。当您引入新的需求时,您也可以对原数据做对应的调整,使其符合新需求的数据要求。
用于用户洞察时,ADS行为数据表样例:
user_id
user_id_2
user_id_...
行为类型
行为时间
行为次数
行为金额
行为渠道
行为对象属性
行为对象属性值
a0001
b0006
c0006
加购
20211023
5
500
官网
一级类目
女装
a0002
b0002
c0002
浏览
20201225
10
1000
官网
二级类目
家居服
a0003
b0003
c0003
收藏
20201023
2
2000
app
品牌
品牌A
a0004
b0004
c0004
购买
20200818
1
3000
小程序
商品
商品A
user_id
user_id_2
user_id_...
行为类型
行为时间
行为次数
行为金额
行为渠道
行为对象属性
行为对象属性值
行为对象属性值ID
a0001
b0001
c0001
购买
2021-01-01 10:00:01
1
1000
门店1
商品
商品A
A0001
a0002
b0002
c0002
购买
2021-01-01 10:01:01
1
2000
小程序
商品
商品B
A0002
a0003
b0003
c0003
购买
2021-01-01 10:02:01
1
2000
官网
商品
商品B
A0002
a0004
b0004
c0004
购买
2021-01-01 10:03:01
1
3000
app
商品
商品C
A0003
字段格式要求:
字段名 | 数据格式 | 描述 |
---|---|---|
user_id | string | 必选字段。行为数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。
|
user_id_2等 | string | 可选字段。用户标识外的其他用户ID。 |
行为类型 | string | 必选字段。
|
行为时间 |
| 必选字段。 说明
|
行为次数 | double、bigint | |
行为金额 | double、bigint | |
行为渠道 | string | |
行为对象属性 | string | 必选字段。行为对象属性、行为对象属性值为一对key-value,可以记录商品、品牌、类目等等。
|
行为对象属性值 | string | |
行为对象属性值ID | string |
|
所有字段的字段名均可自定义。
user_id、user_id_2等属于用户ID字段,可用于营销、推送等。
ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。
若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。
同一个用户可以有多行数据,行为时间、行为类型、行为渠道、行为对象中任一条件不同均需单独作为一行。
用于复购预测、货品推荐时的附加要求:
表名、字段名中的英文均使用小写。
数据表保存于ADB3.0数据源。
购买类型的行为数据条数≥100万,时间跨度≥2×365天,对应的去重后的用户数≥50万且≤300万。
不支持0复购场景,即任意日期开始的过去365天内发生过购买行为的用户中,需要有用户在接下去的预测周期内发生过复购。
对于货品推荐,若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目做为行为数据集的行为对象(行为对象属性、行为对象属性值、行为对象属性值ID分别记录“类目”、类目名称、类目ID),将类目作为商品标签数据集的数据内容,然后创建算法模型。
为使行为数据集在行为筛选时能区分行为类型、行为渠道、行为对象,需要添加相应的维表。
行为类型、行为渠道的维表结构参考下表:
id
行为类型
1
购买
2
加购
3
浏览
4
收藏
......
......
行为对象属性的维表结构分两种:
每个属性一个维表:将同一个属性的属性值保存为一列,维表结构参考上表。若属性为商品,可以利用商品标签表作为维表。
所有属性一个维表:所有属性的属性值保存在同一个表,因此行为对象属性、行为对象属性值各保存为一列,维表结构参考下表:
id
行为对象属性
行为对象属性值
1
一级类目
女装
2
一级类目
男装
3
二级类目
外套
4
二级类目
裤子
5
二级类目
连衣裙
......
......
......