基本概念

本文介绍数据资源平台的基本概念。

任务实例说明

  • 任务(Task):数据处理作业单元,任务定义了数据处理的操作以及其相关的配置,一个任务通常包含了需要执行的SQL、Python脚本或者应用包等,以及计算引擎的配置信息。

  • 任务依赖(Task Deps):当前任务可能需要有另外(1或者n)个任务产出的数据,设置依赖之后,其运行的实例需要等待上游对应实例成功,且满足计划时间才会执行。若失败,则下游不会执行。

  • 任务实例(Task Instance):任务的一次运行的承载体,任务每运行一次就会产生一个实例。实例有几种类型:周期实例、测试实例、补数据实例、手动实例。不同类型的实例,是由于触发任务运行的方式不同。对于周期任务而言,每个周期一次运行产生一个实例。

  • 周期调度(Task Schedule):任务按需设置其执行计划,并被周期性执行。 任务在设置了周期调度之后,具体到每个实例的执行时间。调度时间有两个:

    • 计划时间(T_plan ),实例计划执行的时间。

    • 业务时间,实例所代表的业务时间(T_biz)。

    两者的关系是: T_biz + 1 = T_plan ,这里就是离线批处理里经典的T+1概念。

系统设置

租户:在数据资源平台产品中,租户为最高级权限隔离的命名空间,一个租户下可以有若干账号,不同账号可以分配不用的角色,数据可以在租户内共享,不同租户之间数据完全隔离。

工作组:数据资源平台中用于数据隔离的命名空间,通常为一个用户组、一个项目或一个应用。工作组下包含云计算资源、工作组成员。工作组内的数据通常为工作组内全部成员可见,研发工作台的数据权限以工作组为单元相互隔离。

数据同步

数据源:是指数据库应用程序所使用的数据库或者数据库服务器,在数据资源平台的数据同步中可以将配置好的数据源端数据同步到目标端。

多源异构数据:指的是多种不同结构的数据源。

数据模板:用于对非结构化数据的解释,当创建数据同步任务时,且源端数据类型为消息中间件时,通过数据模板对其进行解释。

Oracle CDC:实时数据同步模式,对源表进行INSERT、UPDATE或DELETE等操作的同时可以提取数据,变化的数据被保存在数据库的变化表中,通过订阅变化数据的方式实现数据的秒级同步。

MySQL Binlog:实时数据同步模式,通过同步并解析记录所有数据库表结构变更(例如CREATE、ALTER TABLE…)以及表数据修改(INSERT、UPDATE、DELETE…)的二进制日志,实现数据的秒级同步。

SQLServer CDC:实时数据同步模式,开启CDC的源表在插入、更新和删除活动时会插入数据到日志表中。CDC通过捕获进程将变更数据捕获到变更表中,通过CDC提供的查询函数,实现数据的秒级同步。

数据探查

内置算法:内置多种数据统计分析算法,根据不同字段类型采用不同的计算统计规则。

数据标准

数据标准:是对含义相同但字段名称不同的数据进行统一规范管理的数据准则,数据标准可定义逻辑表的命名规范、字段的取值范围、度量单位等内容。

数据元:表示一个数据的最小信息项,包含基本的描述、值域范围和约束规则。

生命周期:指的是表的生命周期,指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被数据库(例如:MaxCompute)自动回收。这个指定的时间就是生命周期,生命周期的单位一般是天。

元素的长度:数据元的长度。

固定值:是指数据质量运行的一行一列结果与期望的固定值进行比较,根据比较条件判断质量结果执行是否通过。

趋势:指的是质量规则设定的模式,分为固定值、固定值和固定值比较,以及固定值波动率比较。

数据建模

数据模型:是数据特征的抽象,它从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供一个抽象的框架,数据资源平台支持逻辑模型和物理模型。

  • 逻辑模型:反映的是系统分析设计人员对数据存储的观点,是对概念数据模型进一步的分解和细化;数据资源平台中可通过手动、DDL语句、EXCEL导入、云计算资源扫描的方式来实现逻辑模型创建。

  • 物理模型:是对真实数据库的描述;数据资源平台中通过将已创建好的逻辑表物理化到数据库来实现物理模型的创建。

  • 质量规则:是指在特定业务环境下,用户定义数据符合使用目的一组定量或定性的规定要求;在数据资源平台中,可以通过对表级与字段级的数据质量任务运行,真实反映数据接入的唯一性、准确性、规范性、一致性、时效性、完整性。

数据开发

场景:场景定义数据输出的方式,一个场景包含一种或多种数据输出的方式。

计算资源:可以执行计算节点的资源。使用“场景加工”时并不会单独执行一个计算节点任务,需要把计算节点组织成流程执行,所以需要计算资源支持流程的批量执行。

存储资源:可以存储数据的资源,包括离线存储、在线存储。

计算节点:场景加工中的计算节点由五要素组成:计算资源、代码、输入数据、输出数据和参数。代码可在计算资源上执行(代码是否需要编译由计算资源决定);输入数据、输出数据由逻辑表定义;参数用于控制计算节点的执行。在使用计算节点配置任务流程时,流程中连接上下游的连接线表示计算节点的输入和输出数据,而节点参数需要通过单独的界面进行配置。

节点任务流程:通过有向无环的流程图(DAG)描述,定义了一段处理逻辑。节点任务流程中所有计算节点的输入、输出数据都是具体的数据表、文件和数据流。

开发场景与生产场景:每个工作区都有一个开发场景和一个生产场景,它们是两套独立的资源配置。数据开发工程师只能在开发环境中注册计算节点,配置节点任务流程,并进行开发。开发通过后要经过上线操作才能把开发环境中的节点任务流程发布到生产环境中。任何人都不能编辑生产环境中的节点流程,但可以修改参数,所有修改都会记录在日志中。

任务运维

任务流:由数据同步节点、离线计算任务节点、流式计算任务节点、自定义计算节点等组成的数据加工或算法服务工作流。

业务类型:提交任务流的来源,包括数据同步、数据开发、标签加工、标签同步等。

任务类型:提交任务流的来源,包括数据同步、数据开发、标签加工、标签同步等。离线同步任务、离线计算任务的任务类型,主要分为手动、周期、补数据等。

节点类型:任务流中包含的同步节点、MaxCompute_SQL节点、Flink_Vvp节点、自定义计算节点等在不同计算资源上运行的计算任务节点。

补数据计划:通常情况下,对于离线周期任务,当前序任务失败或任务第一次上线,需要通过补数据计划同步或处理当前业务日期之前数据。

资产运营

资产目录:是对数据资源平台元数据的有序组织,是记录数据体系的保障。数据类目是目录信息与服务、保障与支撑所组成的一个整体。针对资产的合理组织,需要对资产进行对应分类,如部门类目、主题类目、行业类目,可进行该类目下资产数据进行搜索、展现以及权限申请。

数据资产:数据资源平台中存在大量的数据表、标签、API等各类数据资产,数据管理者通过数据汇聚、数据治理、数据分析后,需要对整个平台数据进行统一管控,了解平台的核心数据资产,提供对应的数据资产管理规范。

统一服务

应用:是调用API服务时的身份。每个应用有一组AppKey和AppSecret,可以理解为账号密码,调用API的时候需要将AppKey做参数传入,AppSecret用于签名计算,即网关会校验这对密钥对您进行身份认证。

API:应用程序编程接口,是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。

数据API:API的源头为数据表,可以是单表也可以是多表,请求后最终以类SQL的形式到数据库查询并返回符合条件的数据,将数据组装成报文格式返回。