全部产品
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
数据集成

产品与技术

更新时间:2017-12-08 14:27:42

产品与概念

数据集成定义只完成数据同步/传输过程,并且整体数据传输过程完全控制于数据集成的同步集群模型下,同步的通道以及同步数据流对用户完全隔离。同时,数据集成本身不提供传输同步数据流的消费功能,即您不能直接通过数据集成的的API消费数据流,所有针对数据操作,您必须在同步数据流两端存储端操作。如下图是以RDS通过数据集成同步到MaxCompute过程,表格里是数据集成支持的数据类型。

1

技术与原理

数据集成在阿里云上提供一套分布式离线数据同步平台,同时提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。从用户角度来看,一个数据集成同步任务运行Job示意图如下:

1

上述中,红色虚箭头是代表通过collector状态收集器监控数据返回到脏数据管理服务器进行数据分析,灰色方向箭头代表数据流向。DI Service主要是包含资源管理器、Job管理器、脏数据管理器、分布式服务、鉴权服务等。Job Container主要是将数据集成运行任务分成若干个task,然后通过scheduler调度管理。TaskGroup Container主要是数据抽取通过数据通道(channel)将数据写入:

• 用户使用数据集成Job启动API,向数据集成服务端发起调用,提交一个离线数据同步Job。

• 数据集成收到Job API请求后,将负责做必要的安全和权限校验,待校验通过后,数据集成会下发相应的Job到执行集群节点启动离线数据同步任务。

• Job启动后,根据用户提供源端(Reader)、目的端(Writer)的配置信息,加载并初始化相关插件,连接两端数据源,开始数据同步工作。

• Job运行过程中,将随心跳向数据集成汇报当前进度、速度、数据量等关键运行指标,用户根据Job的状态API实时获取该Job运行状态,直至Job运行结束(成功或者失败)。

本文导读目录