本文介绍数据资源平台的基本概念。

数据同步

数据源:即数据的来源,是提供某种所需要数据的器件或原始媒体。

目标端:是指作为传输目标的数据库。

多源异构数据:指的是多种不同结构的数据源。

分布式上云架构:分布式是底层的技术架构,支持弹性扩容。

数据标准

数据元:数据元是DataElement,表示一个数据的最小信息项,包含基本的描述、值域范围和约束规则。

生命周期:生命周期指的是表的生命周期,指表(分区)数据从最后一次更新 的时间算起,在经过指定的时间后没有变动,则此表(分区)将被数据资源自动回收。这个指定的时间就是生命周期。生命周期的单位一般是天。

元素的长度:数据元的长度。

固定值:固定字段的模式。

趋势:指的是质量规则设定的模式,分为:固定值、固定值和固定值比较以及固定值波动率比较。

数据开发

场景:场景定义数据输出的方式,一个场景包含一种或多种数据输出的方式。

计算资源:可以执行计算节点的资源,单机也是一种计算资源。使用“场景加工”时并不会单独执行一个计算节点任务,需要把计算节点组织成流程执行,所以需要计算资源支持流程的批量执行。

存储资源:可以存储数据的资源,包括离线存储、在线存储。单机中也可以视为一种存储资源,数据存储的形式为文件。

计算节点:场景加工中的计算有五个要素:计算资源、代码、输入数据、输出数据和参数。代码可在计算资源上执行(代码是否需要编译由计算资源决定);输入数据、输出数据由逻辑表定义;参数用于控制计算节点的执行。在使计算用节点配置任务流程时,流程中连接上下游的连接线表示计算节点的输入和输出数据,而节点参数需要通过单独的界面进行配置。

节点任务流程:通过有向无环的流程图(DAG)描述,定义了一段处理逻辑。节点任务流程中所有计算节点的输入、输出数据都是具体的数据表、文件和数据流。

测试场景与线上场景:每个工作区都有一个测试场景(测试环境)和一个线上场景(线上环境),它们是两套独立的资源配置。数据开发工程师只能在开发测试环境中注册计算节点,配置节点任务流程,并进行测试。测试通过后要经过上线操作才能把测试环境中的节点任务流程发布到生产环境中。任何人都不能编辑生产环境中的节点流程,但可以修改参数,所有修改都会记录在日志中。

场景依赖:是指同工作区下跨场景间的离线计算节点的周期调度依赖,用于配置周期调度中场景间的离线节点执行依赖关系,进行正确顺序的离线作业计算。

语义建模

物理表:是指具体某个数据源中的一张表。

主表:是指一个云计算资源上的数据全量表。

同步表:是指同步到目标云计算资源而生成的物理表。

标签同步:是指将一个云资源的中的标签同步到另一个云计算资源。

表组:是指一系列可发生关联的数据表的集合。分析型数据库采用关系模型存储数据,即使用二维表进行数据的组织和存储。

值码表:数据库相关字段编码值的含义,例如:性别字段代码表的值【M】代表 【男】,【F】代表【女】。

画像分析

群体:分析对象上满足一定条件的单体的集合。

群体计算:同一个实体的群体和群体之间的交集、差集和并集计算,生成新群体。