全部产品
阿里云办公

数据集成术语表

更新时间:2018-03-12 11:15:26

A

  • 安全组

安全组是一个逻辑上的分组,是一种虚拟防火墙,是由同一个地域(Region)内具有相同安全保护需求并相互信任的实例组成,可用于设置单台或多台ECS实例的网络访问控制,是重要的网络安全隔离手段。每个实例至少属于一个安全组,在创建时就需要指定。同一安全组内的实例之间网络互通,不同安全组的实例之间默认内网不通。可以授权两个安全组之间互访。

B

  • 白名单

数据集成连接RDS(MySQL)同步数据需要使用MySQL标准协议连接。RDS默认允许所有IP连接,但如果用户在RDS配置指定了IP白名单,则用户需要添加数据集成执行节点到IP白名单。用户没有指定RDS白名单情况下,不需要给数据集成提供白名单。

C

  • 插件

    分为读插件(reader)和写插件(writer),读插件负责将数据从源端存储系统抽取出来并转化为中间格式,写插件负责将中间格式的数据写入到目标端存储系统。

  • Console

    数据集成提供的基于命令⾏交互⽅式的操作管理⼯具。

  • 错误记录数

    错误记录数,表示脏数据的最大容忍条数。示例如下:

    如果您配置为0,表示严格不允许脏数据存在。

    如果您不填此项,则代表允许存在脏数据,即如果出现脏数据,数据集成会记录并打印部分脏数据,方便您进行排查。

  • 常量

    常量是固定值,在程序执行期间不会改变。常量可以是任何的基本数据类型,比如整数常量、浮点常量、字符常量,或字符串字面值。

  • 重跑与幂等

    数据集成定位在为各类数据存储提供数据传输通道功能,在定期自动化运行数据同步的场景,如数仓ETL流程,要求所有的数据同步任务能够做到多次同步和单次同步最终结果一致。例如当一次数据同步任务出现Fail,您可以直接重启任务而无需到目的数据端进行线上数据清理操作。这在数仓领域属于作业幂等性要求。数据集成作业的幂等性是通过Writer插件的前置条件来实现的,例如您在MaxCompute配置中提供数据写入前的清理动作,保证每次数据导入前都会先清除当前表或者分区的现有数据,这样能够保证数据多次写入的结果和一次性写入结果一致。

F

  • 分区

    分区表是指在创建表时指定分区空间,即指定表内的某几个字段作为分区列。大多数情况下,用户可以将分区类比为文件系统下的目录。

    MaxCompute将分区列的每个值作为一个分区(目录)。您可以指定多级分区,即将表的多个字段作为表的分区,分区之间正如多级目录的关系。

J

  • 结构化数据

    结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)。

    非结构化数据,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。

    所谓半结构化数据,就是介于结构化数据和非结构化数据之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

  • Job(作业)

    Job是同步的基本业务单元,描述了完成一次数据同步所需要的全部配置信息,包括源端配置,目的端配置,出错限制等。

  • 经典网络的IP

    目前经典网络IP地址由阿里云统一分配,分为公网IP和私网IP。

    每个实例会分配一块私网网卡,并绑定一个私网IP。私网IP是必选的且无法修改。

    您购买了公网带宽(即公网带宽不为0Mbps),阿里云会为您的实例分配一块公网网卡,并为网卡配置一个公网IP地址。

L

  • 离线同步

    指数据周期性(例如每天、每周、每月等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。

  • 流式同步

    数据以实时或者准实时的时延,将变化的变更日志从源端系统传输到目标端系统。对于流式数据同步系统,数据以Stream(变更流水)的方式从源端传输到目的端。实时同步不存在任务结束,将数据的变化日志同步一直持续下去。数据集成暂不支持流式数据同步模型。

  • 流量控制

    支持对通道流量控制,即用户可以对单个Job分配带宽最大限制。注意流量度量值是数据集成本身的度量值,不代表实际网卡流量。

T

  • 通道

    指支持的数据存储类型,如MySQL、MaxCompute等。

  • 同步

    一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。

  • Task

    数据集成在进行数据同步过程中,为了提升数据传输吞吐能力,通常对传输数据集进行细粒度切分(称之为Task),并启动多线程乃至于多进程容器运行Task进行数据传输服务。

V

  • VPC

    专有网络VPC构建逻辑隔离网络, 增强不同环境的隔离性、减少共享网络带来的卡顿、以及尽量避免业务规模发展后可能会遇到的安全性问题。

Z

  • 增量同步

    数据集成通过使用where过滤条件做增量抽取,具体来讲,在源表上增加个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过在where条件中放置类似于gmt_modified>sysdate - 1来决定增量抽取哪些数据。

  • 最高速率上限

    作业速率上限是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等影响。

  • 脏数据

    数据同步通常会对接源宿两端数据存储,需要根据源宿两端数据源的具体信息适配和转换相应的数据内容。在传输过程中,可能存在由于两端元数据不匹配或者本身的业务数据传输转换失败(例如OSS上一个定义为Integer的类型存放了“abc”字符串),数据集成将自动识别上述异常情况,并提供自动记录和容错机制,最大限度保证数据传输的可靠性和健壮性。数据集成基于自动识别脏数据功能上,还提供数据传输容错上限。例如,由于历史遗留问题, 若您知晓脏数据影响情况并且对于源端脏数据有一定容忍度,则可以配置单个Job最大脏数据条数阈值。