文档

Quick Audience数据集样例

更新时间:

为保证数据顺利快速分析,不同数据表需事先按照特定格式进行数据存储。本章节分别介绍V3的用户标签数据集、RFM模型、AIPL模型、行为数据集、商品标签数据集的数据表存储样例。

用户标签数据集样例

ADS大宽表样例:

user_id

user_id_2

user_id_3

性别

最近90天巧克力偏好

注册时间

年龄

最近30天消费金额

......

a0001

b0001

c0001

0.8

2018/10/21

23

30

......

a0002

b0002

c0002

0.5

2018/10/21

52

50

......

说明
  • 以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。

  • user_id是表的主键,必选字段,为用户标签数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。

  • user_id、user_id_2等属于用户ID字段,可用于营销、推送等。其他字段属于用户属性字段,可用于透视分析等。

  • ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。

  • 若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。

标签加工需求:

字段类型

加工方式

数据格式

调度需求

文本型单枚举值

保留原值。

string

大宽表建议日粒度更新。

文本型多枚举值

保留原值。

string

日期型

保留原值。

datetime、date

数值型

保留原值。

double、bigint

商品标签数据集样例

ADS大宽表样例:

item_id

商品名

商品规格

购买门槛

上架时间

季节

价格

利润率

......

A0001

XXX夹克

均码

非会员

2021/01/20

春夏

1000

0.50

......

A0002

XXX外套

S/M/L

会员

2021/01/20

2000

0.30

......

说明

  • 以上所有字段均为样例字段,仅供参考,可根据业务需要自定义添加,字段名均可自定义。

  • item_id是表的主键,必选字段,为商品标签数据集的商品标识,将作为货品推荐等操作中的商品唯一标识。建议采用SPU粒度的商品ID。

  • 商品名是必选字段。

  • 用于货品推荐时的附加要求:

    • 表名、字段名中的英文均使用小写。

    • 数据表保存于ADB3.0数据源。

    • 商品个数≥10。

    • 受众规模×商品池规模≤500亿。其中,受众为将要参与推荐的用户,商品池为从商品标签数据集筛选的候选商品范围。

    • 建议只包含商品的静态属性标签,例如规格、系列等。统计类标签,例如最近90天销量,将会影响货品推荐的模型训练效果,若包含统计类标签,需要在创建算法模型时指出,以便在训练算法模型时排除。

    • 若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目作为商品标签数据集的数据内容(类目ID为主键,包含类目名称等字段),将类目做为行为数据集的行为对象,然后创建算法模型。

标签加工需求:

字段类型

加工方式

数据格式

调度需求

文本型单枚举值

保留原值。

string

大宽表建议日粒度更新。

日期型

保留原值。

datetime、date

数值型

保留原值。

double、bigint

RFM模型样例

RFM模型支持两种数据表:客户数据、交易数据。

客户数据

将最近N天的原始数据聚合成以客户为粒度的标签数据(聚合后的数据量建议保持在1亿行以内),表中每个客户只存在一条数据。

客户数据表样例:

user_id

最近一次消费日期

累计消费金额

累计消费次数

user_id_2

user_id_3

user_id_...

a0001

2019/8/23 12:36:54

345.55

2

b0001

c0001

......

a0002

2018/7/12 15:36:54

356.1

1

b0002

c0001

......

字段格式要求:

字段名

数据格式

描述

user_id

string

表的主键,必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。

最近一次消费日期

datetime、date

必选字段。

累计消费金额

double、bigint

必选字段。

累计消费次数

double、bigint

必选字段。

user_id_2等

string

可选字段。用户标识外的其他用户ID。

说明
  • 所有字段的字段名均可自定义。

  • user_id、user_id_2等属于用户ID字段,可用于营销、推送等。

  • ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。

  • 若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。

交易数据

适用于分析小规模(建议1亿行以内)的交易数据,每一行表示一条用户交易记录,交易记录包含客户标识、交易日期、交易金额信息。

交易数据表样例:

order_id

user_id

交易日期

交易金额

user_id_2

user_id_3

user_id_...

x1

a0001

2019/6/24 12:56:54

124

b0001

c0001

......

x2

a0002

2019/8/23 12:36:54

222.55

b0002

c0002

......

x3

a0003

2018/7/12 16:36:54

356.1

b0003

c0003

......

字段格式要求:

字段名

数据格式

描述

order_id

string

表的主键,必选字段。订单ID。

user_id

string

必选字段。RFM模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。

交易日期

datetime、date

必选字段。

交易金额

double、bigint

必选字段。

user_id_2等

string

可选字段。用户标识外的其他用户ID。

说明
  • 所有字段的字段名均可自定义。

  • user_id、user_id_2等属于用户ID字段,可用于营销、推送等。

  • ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。

  • 若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。

AIPL模型样例

若要从客户数据创建AIPL模型,客户数据表应包含AIPL规则相关字段。

例如,设定AIPL规则如下:

  • A:用户最近90天登录过官网,或注册时间在半年内。

  • I:用户最近90天有过收藏行为。

  • P:用户最近90天有过购买行为。

  • L:用户最近90天多次购买,且购买金额大于1000。

对应ADS大宽表样例:

user_id

user_id_2

渠道

注册时间

最近90天消费金额

最近90天登录次数

最近90天收藏次数

最近90天购买次数

......

a0001

b0001

小程序

2020/10/10

500

1

2

1

......

a0002

b0002

app

2020/10/20

3000

3

5

2

......

a0003

b0003

官网

2021/10/30

0

1

0

0

......

说明
  • 以上所有字段均为样例字段,仅供参考,请根据AIPL规则和业务需要自定义添加,字段名均可自定义。

  • user_id是必选字段,为AIPL模型的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。

  • user_id、user_id_2等属于用户ID字段,可用于营销、推送等。

  • ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。

  • 若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。

  • 同一个用户可以有多行数据,例如同一用户每个渠道一行。

标签加工需求:

字段类型

加工方式

数据格式

调度需求

文本型单枚举值

保留原值。

string

大宽表建议日粒度更新。

文本型多枚举值

保留原值。

string

日期型

保留原值。

datetime、date

数值型

保留原值。

double、bigint

为使AIPL模型能区分渠道,渠道字段需要添加维表,维表结构参考下表:

id

渠道

1

小程序

2

app

3

官网

4

微信

......

......

行为数据集样例

行为数据集的数据根据不同的用途,要求有所不同:

下面将分别给出两种用途的行为数据集样例,然后说明字段要求,并标明哪些是用于指定用途时的特殊要求。请根据您的用途准备数据。当您引入新的需求时,您也可以对原数据做对应的调整,使其符合新需求的数据要求。

  • 用于用户洞察时,ADS行为数据表样例:

    user_id

    user_id_2

    user_id_...

    行为类型

    行为时间

    行为次数

    行为金额

    行为渠道

    行为对象属性

    行为对象属性值

    a0001

    b0006

    c0006

    加购

    20211023

    5

    500

    官网

    一级类目

    女装

    a0002

    b0002

    c0002

    浏览

    20201225

    10

    1000

    官网

    二级类目

    家居服

    a0003

    b0003

    c0003

    收藏

    20201023

    2

    2000

    app

    品牌

    品牌A

    a0004

    b0004

    c0004

    购买

    20200818

    1

    3000

    小程序

    商品

    商品A

  • 用于复购预测货品推荐时,ADS行为数据表样例:

    user_id

    user_id_2

    user_id_...

    行为类型

    行为时间

    行为次数

    行为金额

    行为渠道

    行为对象属性

    行为对象属性值

    行为对象属性值ID

    a0001

    b0001

    c0001

    购买

    2021-01-01 10:00:01

    1

    1000

    门店1

    商品

    商品A

    A0001

    a0002

    b0002

    c0002

    购买

    2021-01-01 10:01:01

    1

    2000

    小程序

    商品

    商品B

    A0002

    a0003

    b0003

    c0003

    购买

    2021-01-01 10:02:01

    1

    2000

    官网

    商品

    商品B

    A0002

    a0004

    b0004

    c0004

    购买

    2021-01-01 10:03:01

    1

    3000

    app

    商品

    商品C

    A0003

字段格式要求:

字段名

数据格式

描述

user_id

string

必选字段。行为数据集的用户标识,将作为用户洞察、受众圈选等操作中的用户唯一标识。

  • 用于用户洞察时:无限制。

  • 用于复购预测、货品推荐时:为了能向预测结果生成的受众发送营销信息,建议使用手机号等ID类型。

user_id_2等

string

可选字段。用户标识外的其他用户ID。

行为类型

string

必选字段。

  • 用于用户洞察时:无限制。

  • 用于复购预测、货品推荐时:仅支持基于购买行为进行算法预测,其他行为的数据不影响预测结果。

    说明

    若包含其他行为,算法配置界面将提供字段值过滤功能,排除购买以外的行为。

行为时间

  • 用于用户洞察:datetime、date

  • 用于复购预测、货品推荐:timestamp、datetime、date

必选字段。

说明
  • 行为时间字段用于复购预测、货品推荐时,与用于用户洞察时的数据格式不同,请注意转换到正确的格式。

  • 行为时间、行为金额字段用于复购预测、货品推荐时,均不允许为空值。

行为次数

double、bigint

行为金额

double、bigint

行为渠道

string

行为对象属性

string

必选字段。行为对象属性、行为对象属性值为一对key-value,可以记录商品、品牌、类目等等。

  • 用于用户洞察时:无限制。

  • 用于复购预测、货品推荐时:仅支持基于商品属性进行预测,其他属性的数据不影响预测结果。

    说明

    若包含其他属性,算法配置界面将提供字段值过滤功能,排除商品以外的属性。

行为对象属性值

string

行为对象属性值ID

string

  • 用于用户洞察、复购预测时:无需该字段。

  • 用于货品推荐时:必选字段。字段值需要和商品标签表的主键item_id的值相符,目的是将行为和商品信息相关联。建议采用SPU粒度。

说明
  • 所有字段的字段名均可自定义。

  • user_id、user_id_2等属于用户ID字段,可用于营销、推送等。

  • ID类型支持OneID、UnionID、手机号码、电子邮箱、淘宝ID、淘宝昵称、淘宝OUID、支付宝ID、微博ID、IMEI、IDFA、IMSI、OAID、MAC地址、OpenID,共15种类型。

  • 若使用手机号类型的ID字段,请确保手机号格式为11位数字,且号码前不加86,否则不可用于短信营销。

  • 同一个用户可以有多行数据,行为时间、行为类型、行为渠道、行为对象中任一条件不同均需单独作为一行。

  • 用于复购预测、货品推荐时的附加要求:

    • 表名、字段名中的英文均使用小写。

    • 数据表保存于ADB3.0数据源。

    • 购买类型的行为数据条数≥100万,时间跨度≥2×365天,对应的去重后的用户数≥50万且≤300万。

    • 不支持0复购场景,即任意日期开始的过去365天内发生过购买行为的用户中,需要有用户在接下去的预测周期内发生过复购。

    • 对于货品推荐,若需要通过算法模型训练得到商品类目之间的关联关系,可以将类目做为行为数据集的行为对象(行为对象属性、行为对象属性值、行为对象属性值ID分别记录“类目”、类目名称、类目ID),将类目作为商品标签数据集的数据内容,然后创建算法模型。

为使行为数据集在行为筛选时能区分行为类型、行为渠道、行为对象,需要添加相应的维表。

  • 行为类型、行为渠道的维表结构参考下表:

    id

    行为类型

    1

    购买

    2

    加购

    3

    浏览

    4

    收藏

    ......

    ......

  • 行为对象属性的维表结构分两种:

    • 每个属性一个维表:将同一个属性的属性值保存为一列,维表结构参考上表。若属性为商品,可以利用商品标签表作为维表。

    • 所有属性一个维表:所有属性的属性值保存在同一个表,因此行为对象属性、行为对象属性值各保存为一列,维表结构参考下表:

      id

      行为对象属性

      行为对象属性值

      1

      一级类目

      女装

      2

      一级类目

      男装

      3

      二级类目

      外套

      4

      二级类目

      裤子

      5

      二级类目

      连衣裙

      ......

      ......

      ......