数据萃取概述
面向客户数据价值深度挖掘的诉求,萃取支持以实体(如消费者、设备)为中心的数据融通和深度挖掘,提供标签可视化配置及分类管理能力,帮助企业降低开发成本、快速构建标签体系、沉淀可直接应用的高价值数据,以助力业务精准营销和决策分析。
前提条件
已购买数据萃取增值服务。详情请参见开通Dataphin。
功能介绍
基于Dataphin数据建模研发沉淀的数据或简单加工清洗后的明细数据,数据萃取提供实体识别与连接、行为数据清洗与整合、标签可视化配置及自动化调度的能力,包括ID中心、行为中心、标签中心和平台管理。
ID中心:实体ID定义和ID间mapping关系的管理,是后续标签计算来源数据连关联的核心。实体ID和ID映射表的详细说明如下:
实体ID:您可定义从不同视角对实体进行描述的ID,如消费者实体:会员ID、手机号;商品实体:价格、产地。
ID映射表:您可引入以OneID为主键的ID映射表,以实现对实体ID的识别与连接,并应用于下游标签生产中。
行为中心:行为数据规范化、结构化聚集。其中,行为元素用于统一名称规范,避免数据关联遗漏;行为规则用于定义从不同的来源表中按照一定的规则抽取数据并统一存储,保证数据可用性。行为元素和行为规则的详细说明如下。
行为元素:行为元素是行为的组成元素,行为由行为域、业务线、动作、对象构成,不同行为元素之间可自由组合。
行为规则:行为规则定义每个行为从不同来源表的取数规则,可指定ID、对象、对象属性等对应的来源表字段。
标签中心:标签可视化配置与自动化调度。支持多种类型标签的配置与统一管理,并通过标签逻辑表统一对接下游提供服务。详细说明如下:
标签生产:支持规则统计标签、行为偏好标签、注册上挂标签的可视化配置与自动化调度。
标签消费:您可以基于业务目标自由组合需要的ID及标签生成标签逻辑表,并通过配置逻辑表集成任务导出到应用数据库向上层提供服务。
平台管理:支持定义全局通用的ID类目、行为域及标签类目,以实现集中管理。
操作指引

数据萃取入口
登录Dataphin控制台。
在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。
您也可以单击快速开始相关工作区域的数据萃取,快速进入数据萃取。
在Dataphin首页,单击研发。
在数据开发页面,单击萃取,进入数据萃取页面。
数据萃取的左侧导航栏展示我的工作流、标签中心、行为中心、ID中心和平台管理,其中我的工作流展示您最近打开的萃取对象。您可以单击页面下面的
固定左侧导航栏。