文档

策略训练任务数据说明

更新时间:

智能圈选依赖必要的数据进行特征开发和模型建模,您需要按照数据格式和建模数量级要求准备建模依赖的数据,并进行数据校验,帮助您快速接入插件。本文为您介绍训练任务输入数据格式说明、建模量级要求及离线自测方法。

策略训练任务输入数据格式说明

如果您要在后续使用智能发送来触达人群,则需要按照个性化触达时间配置说明来配置行为维表(behavior)和运营记录维表(operation)的数据。

  • 目录要求

    训练任务输入数据依赖用户基础信息(user)、物品基础信息(item)、用户行为(behavior)、运营记录(operation)四类数据进行建模,您可以在存储空间Bucket(以pai-usergrowth-客户拼写缩写命名)下设置两层文件夹,具体目录结构如下所示。目录结构其中:

    • 一级目录为各个维表,目录名称固定为user、item、behavior和operation,且不能修改。

    • 二级目录对应各维表的ds分区字段,时间目录,命名为ds=yyyymmdd,例如ds=20220301。

    • 各ds文件夹下可上传单个或多个CSV文件,CSV文件内容分别为用户在YYYYDDMM这一天的用户基础信息、物品基础信息、行为信息和运营信息。您可以上传单个或多个CSV文件,文件内容格式要求如下:

      • UTF-8编码。

      • 首行为字段名,格式以及字段顺序严格按照各个维表要求。

      • 由于ds已经作为二级目录名存在,CSV文件中不能包含ds字段。

      • 统一使用\N表示NULL值。

  • XXX.csv文件内容要求

    需要每天按时间目录更新数据,各个维表字段要求如下:

    说明

    数值型属性应满足属性值比大小是有意义的。提供一个数值型属性的反例,例如我们对省份按1、2、3...连续编号,则用户地域信息可转化为数值型,此时省份x大于省份y并没有意义,违反约定,因此省份需要按字符型数据处理。

    • 用户基础维表(user)

      用来记录静态用户属性,比如性别、年龄、注册日期等。各字段定义如下表所示。

      字段名称

      字段类型

      描述

      user_id

      String

      用户ID,用来唯一区分用户,不能为空。

      gender

      Bigint

      用户性别:

      • 1:男。

      • 2:女。

      • \N:未知。

        说明

        使用\N表示NULL值。

      age

      Bigint

      用户年龄,\N表示未知。

      说明

      使用\N表示NULL值。

      reg_time

      String

      注册日期,格式为yyyymmdd\N表示未知。

      说明

      使用\N表示NULL值。

      user_type

      String

      业务相关的用户分类。如果业务无分类可以设置为\N

      说明

      使用\N表示NULL值。

      kvs_num

      String

      扩展的数值型用户属性,属性值支持整型与浮点型,格式为k1:v1 k2:v2...。即一对属性及属性值由半角冒号(:)分隔,多个属性对由空格分隔,支持稀疏表示。命名规范如下所示(同样适用于其他维表):

      • 半角冒号(:)、半角逗号(,)和空格为保留字符,不能出现在属性名和字符型属性值中。例如:属性名a ba:ba,b与属性值c :d,e都是不合法的。

      • 属性名可以匿名化处理成编号,也可以使用原始属性名。例如:kvs_num字段配置为1:1.02:1.5 4:2.0

      • 支持稀疏表示:如果用户缺少某属性,可直接在kvs_numkvs_str中跳过该属性。例如上述示例中缺少属性3,可以直接跳过。

      kvs_str

      String

      扩展的字符型用户属性,格式为