IDMapping在离线一体化解决方案

(一)背景介绍

对于几乎所有的互联网企业,对于识别、追踪用户身份都有强烈的需求,精准识别用户身份后,就可以收集用户个性化的行为、身份数据,比如用户浏览了什么商品,看了什么视频,去了哪个餐厅等等,从而可以对搜索,广告,推荐等等场景做出精准、个性化的展现。

(二)IDMapping技术路线

1、业务调研

适用的业务体系,以阿里巴巴集团为例,涉及到多个场景需要使用IDMapping

1)跨域账号打通:阿里集团几十个APP 账号打通,进行联合建模或者空间探查,定位到同一个自然人。为后续的营销推荐提供最基础和核心的人员定位。

2)同人识别:营销风控、风控策略,例如阿里云新人权益、平台大促黄牛账号拉新判定。

3)设备账号转换:广告场景-站外投放:用户增长按流量来源可分为一方和三方:三方是指在站外媒体投放广告,将外部媒体的流量资源引入自身平台;而一方是指在手淘内部做用户转化,如发push、促交易等。

2、数据梳理

跟进业务场景和业务数据情况进行整体的梳理,首先需要确定核心数据:用户ID和设备ID、用户与设备关系数据。业务方根据当前埋点数据进行抽取和盘点;在梳理的过程中可能遇到的数据问题:数据不完整、弱关系,没有直接关系的数据,是否通过多种数据关系进行关联和挖掘。对数据源进行细致梳理过程,可将数据源的表名、数据描述、抽取原则、数据量级、ID选取、特征选取等细节信息汇总起来,待数仓架构时作为设计依据;

完成数源梳理后,大体解决了数据从哪里来的问题,该如何抽取的问题,接下来需要进行数仓架构、数据流程和初步模型的设计工作。

3、数仓架构建设

主要涉及数据接入层和清洗层,需要将原始表信息接入并指定多种规则进行清洗。ID关系收集、特征收集、数据抽取、粗清洗等ETL处理;基于阿里云大数据平台产品,底层大数据平台MaxCompute

(三)GraphCompute在离线架构

在离线架构以GraphCompute引擎和图算法为中心,可以无缝对接底层数据处理层MaxCompute,承接上层业务的查询能力提供在线服务层。

image.png

(四)技术实现细节

整个技术方案分为三部分:

第一部分是数据梳理和图算法运行,根据数据挖掘相关子图信息,进行离线聚合。目前GraphCompute提供多种经典的图算法功能。

  • 社区发现

    • louvain:可以指定seed高置信度的设备权重,减少它们被合并的概率

    • Weakly Connected Components:通过为关联边增加权重值(活跃程度、置信程度、最近登录等)增加划分的准确率,协助区分设备更换、账号公用等场景

  • 相似度计算

    • 在没有强关联信息的情况下,使用弱关联媒介计算账户之间的相似度,评估相同自然人使用的可能性

第二部分是数据输出,产出强关联性的账号信息,同时扩展实时在线的弱关系挖掘和已有ID挂靠。

第三部分是根据用户设备的关系,进行在线图的服务搭建,提供离线图算法结果的查询和在线弱关系的在线挖掘。

image.png

(五)方案技术优势

1、在离线一体化方案

将业界传统的T+1离线方案直接升级为24小时实时IDMapping关联能力。针对实时判定场景,提供的一体化数据生成、产出到查询链路。

同时,可提供专家经验,配合业务将IDMapping能力从0到1的梳理和落地。

2、提供中台级数据服务能力

基于阿里云大数据平台,提供中台数据架构的服务能力。

首先,配合MaxCompute数仓,基于智能运维系统,将离线计算与在线实时计算结合落地的方案。

其次,提供多种业务数据查询能力,可提供向量、倒排、复杂图查询,让业务使用更灵活。

最后,基于离线、在线一体化方案,可配合业务自行选择,赋能多种业务,如营销推荐(T+1)、实时风控(24小时实时)。

3、更好的图算法经验:

相比SparkX的解决方案,阿里云图计算团队提供更好的图算法经验。在社区发现、联通子图基于阿里达摩院和安全团队经验输出,提供最佳的解决方案。

4、弱关系挖掘能力

针对没有特定强关联的数据,我们也提供一些解决方案,如多因素(规则)进行综合考虑与判定、将非确定条件中的属性进行相似的关联关系计算(向量计算、地理位置计算等手段),将各种真实数据的复杂情形做一些量化方法的转换。

(六)应用场景和业务结果

基于IDMapping构建全域的用户画像

image.png

这一套GraphCompute高质量用户表产出后,业务可完成相应标签能力的完善:

1)事实标签:既定事实,从原始数据中提取。例如用户设置的性别、出生日期和地理位置等。

2)统计标签:基于业务口径定义的标签,在一定周期内,业务行为的表现。例如近一个月登录天数。

3)预测标签:使用算法产生的标签,该标签定义用户对相关业务的偏好程度,对应应该有该标签的预测的score,例如基于用户行为预测的性别、年龄等。

4)营销标签:也叫模型标签,端到端的分析模型,例如购买力。

使用和落地的场景:

1)分类别营销推荐

通过多渠道进行以细分市场为中心的跨屏营销,提升消费者的满意率、挖掘关键客户。在所有这些细分市场中,按年纪、购买力从低到高进行划分,低购买力将获得折扣,而高购买力将获得奢侈品和高质量的书籍、或者商品。

2)用户优惠判定,营销收益更高

减少对同一用户的优惠券,从而可以投资于其他买家以推动业务目标,避免卖家创建多个帐户并使用虚假详细信息滥用补贴。在新人优惠券场景中,需要以OneID的维度计算解决重复权益发放的问题,初步计算可以节省8%的预算,并且大量是当日注册多个账号。

3)挖掘潜在客户,锁定客户转化

将全域IDMapping用户数据,结合用户的行为习惯做关系分析。