基本概念

本文介绍数据资源平台的基本概念。

系统设置

租户:在数据资源平台产品中,租户为最高级权限隔离的命名空间,一个租户下可以有若干账号,不同账号可以分配不用的角色,数据可以在租户内共享,不同租户之间数据完全隔离。

工作组:数据资源平台中用于数据隔离的命名空间,通常为一个用户组、一个项目或一个应用。工作组下包含云计算资源、工作组成员。工作组内的数据通常为工作组内全部成员可见,研发工作台的数据权限以工作组为单元相互隔离。

数据同步

数据源:是指数据库应用程序所使用的数据库或者数据库服务器,在数据资源平台的数据同步中可以将配置好的数据源端数据同步到目标端。

多源异构数据:指的是多种不同结构的数据源。

数据模板:用于对非结构化数据的解释,当创建数据同步任务时,且源端数据类型为消息中间件时,通过数据模板对其进行解释。

Oracle CDC:实时数据同步模式,对源表进行INSERT、UPDATE或DELETE等操作的同时可以提取数据,变化的数据被保存在数据库的变化表中,通过订阅变化数据的方式实现数据的秒级同步。

MySQL Binlog:实时数据同步模式,通过同步并解析记录所有数据库表结构变更(例如CREATE、ALTER TABLE…)以及表数据修改(INSERT、UPDATE、DELETE…)的二进制日志,实现数据的秒级同步。

SQLServer CDC:实时数据同步模式,开启CDC的源表在插入、更新和删除活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中,通过CDC提供的查询函数,实现数据的秒级同步。

数据探查

内置算法:内置多种数据统计分析算法,根据不同字段类型采用不同的计算统计规则。

数据标准

数据标准:是对含义相同但字段名称不同的数据进行统一规范管理的数据准则,数据标准可定义逻辑表的命名规范、字段的取值范围、度量单位等内容。

数据元:表示一个数据的最小信息项,包含基本的描述、值域范围和约束规则。

生命周期:指的是表的生命周期,指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被数据库(例如:MaxCompute)自动回收。这个指定的时间就是生命周期,生命周期的单位一般是天。

元素的长度:数据元的长度。

固定值:是指数据质量运行的一行一列结果与期望的固定值进行比较,根据比较条件判断质量结果执行是否通过。

趋势:指的是质量规则设定的模式,分为固定值、固定值和固定值比较,以及固定值波动率比较。

数据建模

数据模型:是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架,数据资源平台支持逻辑模型和物理模型。

  • 逻辑模型:反映的是系统分析设计人员对数据存储的观点,是对概念数据模型进一步的分解和细化;数据资源平台中可通过手动、DDL语句、EXCEL导入、云计算资源扫描的方式来实现逻辑模型创建。

  • 物理模型:是对真实数据库的描述;数据资源平台中通过将已创建好的逻辑表物理化到数据库来实现物理模型的创建。

  • 质量规则:是指在特定业务环境下,用户定义数据符合使用目的一组定量或定性的规定要求;在数据资源平台中,可以通过对表级与字段级的数据质量任务运行,真实反映数据接入的唯一性、准确性、规范性、一致性、时效性、完整性。

数据开发

场景:场景定义数据输出的方式,一个场景包含一种或多种数据输出的方式。

计算资源:可以执行计算节点的资源。使用“场景加工”时并不会单独执行一个计算节点任务,需要把计算节点组织成流程执行,所以需要计算资源支持流程的批量执行。

存储资源:可以存储数据的资源,包括离线存储、在线存储。

计算节点:场景加工中的计算节点由五要素组成:计算资源、代码、输入数据、输出数据和参数。代码可在计算资源上执行(代码是否需要编译由计算资源决定);输入数据、输出数据由逻辑表定义;参数用于控制计算节点的执行。在使计算用节点配置任务流程时,流程中连接上下游的连接线表示计算节点的输入和输出数据,而节点参数需要通过单独的界面进行配置。

节点任务流程:通过有向无环的流程图(DAG)描述,定义了一段处理逻辑。节点任务流程中所有计算节点的输入、输出数据都是具体的数据表、文件和数据流。

开发场景与生产场景:每个工作区都有一个开发场景和一个生产场景,它们是两套独立的资源配置。数据开发工程师只能在开发环境中注册计算节点,配置节点任务流程,并进行开发。开发通过后要经过上线操作才能把开发环境中的节点任务流程发布到生产环境中。任何人都不能编辑生产环境中的节点流程,但可以修改参数,所有修改都会记录在日志中。

智能标签

物理表:是指具体某个数据源中的一张表。

主表:在数据库中建立的表格,其中存在主键(primary key)用于与其它表相关联,并且作为在主表中的唯一性标识,例如:银行客户信息表(证件号码、姓名、出生日期、电话号码、卡号),信用卡消费信息表(卡号、卡额度、办卡渠道),其中信用卡消费信息表中的卡号为银行客户信息表的外键,其与信用卡消费信息表中卡号属性相关联,因此,信用卡消费信息表为主表,银行客户信息表为从表。

加速表:是指加速到目标云计算资源而生成的物理表。

标签模型:是围绕实体(Object)、关系(Link)、标签(Tag)三大元素对分布在不同数据库中的数据进行网络化的建模方式。

  • 实体用于描述某个客观的对象,如设备人员地址等,对应到物理数据表上一般就是属性表,有一个主键来代表每一个对象,剩下的每一列就是标签即描述对象的属性。

  • 关系是表示对象和对象之间的联系、事件、行为,一般对应到物理数据表上一般就是事实流水表,如成交检修乘车等。

标签:是指对用户这一对象的一个最小描述单元,代表着所描述对象某一个具体的客观事实的抽象表达,如属性(教育水平:职业高中、本科、专科、研究生),行为(成交金额、收藏次数、位置定位),或者是兴趣(对于多个关键词的偏好度),是一种以业务视角出发的数据建模方法,标签既可能是数值、也可能是枚举值,也可以是多个Key-Value组织的列,还可能是多字段组成的事实表(如对象、时间、谓语、宾语)。

标签工厂:是指在数据资源平台中对衍生标签进行生产、加工的功能模块。

值码表:数据库相关字段编码值的含义,例如:性别字段代码表的值【M】代表 【男】,【F】代表【女】。

任务运维

任务流:由数据同步节点、离线计算任务节点、流式计算任务节点、自定义计算节点等组成的数据加工或算法服务工作流。

业务类型:提交任务流的来源,包括数据同步、数据开发、标签加工、标签同步等。

任务类型:提交任务流的来源,包括数据同步、数据开发、标签加工、标签同步等。步任务、离线计离线同步任务、离线计算任务的任务类型,主要分为手动、周期、补数据等。离线同步任务、离线计算任务的任务类型,主要分为手动、周期、补数据等。

节点类型:任务流中包含的同步节点、MaxCompute_SQL节、Flink_Vvp节点、自定义计算节点等在不同计算资源上运行的计算任务节点。

补数据计划:通常情况下,对于离线周期任务,当前序任务失败或任务第一次上线,需要通过「补数据计划」同步或处理当前业务日期之前数据。

画像分析

群体:分析对象上满足一定条件的单体的集合。

群体计算:同一个实体的群体和群体之间的交集、差集和并集计算,生成新群体。

资产运营

资产目录:是对数据资源平台元数据的有序组织,是记录数据体系的保障。数据类目是目录信息与服务、保障与支撑所组成的一个整体。针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目,可进行该类目下资产数据进行搜索、展现以及权限申请。

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。

统一服务

应用:是调用 API 服务时的身份。每个应用有一组 AppKey 和 AppSecret,可以理解为账号密码,调用 API 的时候需要将 AppKey 做参数传入,AppSecret 用于签名算,计网关会校验这对密钥对您进行身份认证。

API:应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。

数据API:API的源头为数据表,可以是单表也可以是多表,请求后最终以类SQL的形式到数据库查询并返回符合条件的数据,将数据组装成报文格式返回。

应用API:API的源头为数据表,可以是单表也可以是多表,请求后最终以类SQL的形式到数据库查询并返回符合条件的数据,将数据组装成报文格式返回。

阿里云首页 数据资源平台 相关技术圈