介绍定制化排序模型中用到的系统内置基础特征。
基础特征结构示意图
基础特征类型介绍
基础特征总体分为两大类:item和user
item:
字段特征:首先选择需要处理的特征字段,默认支持当前应用下的所有字段。然后选择具体的处理方式,如对于文本类型可以选择分词、向量化等,对于数值类型,直接选择原值映射。如果需要的特征字段不在当前应用,还可以通过外部MaxCompute表的形式注册进来。
统计特征:系统内部结合当前应用的搜索日志、行为采集进行统计,如item最近7天的曝光量、点击量、ctr等。
user:
user画像:用户画像特征如果需要可以通过外部表的形式接入训练,预测时通过query传递。(暂未启用)
query特征:即用户搜索的raw_query,一般用到query分词、向量化等信息。
item字段特征处理方式:
原值
分词
分词后生成lookup特征
分词后统计term数量
示例:
比如需要处理的字段内容为“白色T恤”,
原值结果为:“白色T恤”,
分词结果为:“白色^]T恤” (^]为多值分隔符),
分词后生成lookup特征为:“白色:白色^]T恤:T恤”,
分词后统计term数量为:2
系统内置item特征
字段名(特征名) | 字段类型 | 字段说明 |
字段名(特征名) | 字段类型 | 字段说明 |
system_item_id | STRING | item id ,item的唯一标识 |
system_all_nid_ctr_30 | BIGINT | item 30天点击率(已进行离散化) |
system_all_nid_ctr_7 | BIGINT | item 7天点击率(已进行离散化) |
system_all_nid_ctr_1 | BIGINT | item 1天点击率(已进行离散化) |
system_all_nid_pv_30 | BIGINT | item 30天曝光量(已进行离散化) |
system_all_nid_pv_7 | BIGINT | item 7天曝光量(已进行离散化) |
system_all_nid_pv_1 | BIGINT | item 1天曝光量(已进行离散化) |
system_all_nid_ipv_30 | BIGINT | item 30天点击量(已进行离散化) |
system_all_nid_ipv_7 | BIGINT | item 7天点击量(已进行离散化) |
system_all_nid_ipv_1 | BIGINT | item 1天点击量(已进行离散化) |
system_query_score_decay | STRING | 能表示该item的topN个query的点击比例分 (对于query,N默认为20,下同) 示例: 'query1:score1^]query2:score2' |
system_qterm_score_decay | STRING | 能表示该item的topN个query term的点击比例分(对于term,N默认为300,下同) 示例: 'term1:score1^]term2:score2' |
system_query_ctr_decay | STRING | 能表示该item的topN个query的ctr值 示例: 'query1:ctr1^]query2:ctr2' |
system_qterm_ctr_decay | STRING | 能表示该item的topN个query term的ctr值 示例: 'term1:ctr1^]term2:ctr2' |
system_query_match_decay | STRING | 请求query与能表示该item的topN个query的match值 示例: 'query1:query1^]query2:query2' |
system_qterm_match_decay | STRING | 请求query term与能表示该item的topN个query term的match值 示例: 'term1:term1^]term2:term2' |
system_query_seq_decay | STRING | 能表示该item的topN个query,多值id特征 示例: 'query1^]query2' |
system_qterm_seq_decay | STRING | 能表示该item的topN个query term,多值id特征 示例: 'term1^]term2' |
system_query_cnt | BIGINT | system_query_seq_decay的个数 |
system_qterm_cnt | BIGINT | system_qterm_seq_decay的个数 |
dt | STRING | 时间分区,格式 20230316,按天分区 |
系统内置user特征
系统内置user特征。
特征名 | 字段类型 | 特征说明 |
system_exp_time | STRING | 行为产生的时间,单位为“周天”,例如“星期一”,“星期二” |
system_terms2 | STRING | query分词列表的前15个词的截断 |
system_user_id | STRING | user_id |
system_raw_q_ultra | STRING | 分词前的原始query |
system_term_seq | STRING | query序列特征 |
system_term_seq_length | DOUBLE | query序列特征长度 |
- 本页导读 (1)
- 基础特征结构示意图
- 基础特征类型介绍
- item:
- user:
- item字段特征处理方式:
- 系统内置item特征
- 系统内置user特征