全部产品
阿里云办公

产品与技术

更新时间:2018-03-12 11:15:26

产品与概念

数据集成定义只完成数据同步/传输过程,并且整体数据传输过程完全控制于数据集成的同步集群模型下,同步的通道以及同步数据流对用户完全隔离。同时,数据集成本身不提供传输同步数据流的消费功能,即您不能直接通过数据集成的的API消费数据流,所有针对数据操作,您必须在同步数据流两端存储端操作。

以RDS通过数据集成同步到MaxCompute为例,如下图所示,表格中是数据集成支持的数据类型。

1

技术与原理

数据集成在阿里云上提供一套分布式离线数据同步平台,同时提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。从用户角度来看,一个数据集成同步任务运行Job示意图如下所示:

1

上述中,红色虚箭头是代表通过collector状态收集器监控数据返回到脏数据管理服务器进行数据分析,灰色方向箭头代表数据流向。DI Service主要是包含资源管理器、Job管理器、脏数据管理器、分布式服务、鉴权服务等。Job Container主要是将数据集成运行任务分成若干个task,然后通过scheduler调度管理。TaskGroup Container主要是数据抽取通过数据通道(channel)将数据写入。

  • 使用数据集成Job启动API,向数据集成服务端发起调用,提交一个离线数据同步Job。

  • 数据集成收到Job API请求后,将负责做必要的安全和权限校验,待校验通过后,数据集成会下发相应的Job到执行集群节点启动离线数据同步任务。

  • Job启动后,根据您提供的源端(Reader)、目的端(Writer)的配置信息,加载并初始化相关插件,连接两端数据源,开始数据同步工作。

  • Job运行过程中,将随心跳向数据集成汇报当前进度、速度、数据量等关键运行指标,您可根据Job的状态API实时获取该Job运行状态,直至Job运行结束(成功或者失败)。