全部产品
阿里云办公

架构介绍

更新时间:2017-06-07 13:26:11

前言

随着近五年互联网和大数据技术的蓬勃发展,各类数据产品应运而生,从阿里自身大数据的应用发展来看可以看到几方面的挑战:

  • 一方面为了应对数据量高速的增长,衍生出各类的分布式数据计算与存储技术解决各类应用场景下的难题,而非传统IT架构当中只需要单一数据库就可以支撑整个企业的数据分析报表问题;各类数据的积累如何进行有效的整合与管理,各个业务库的数据之间如何打通在多个计算存储资源上合理的分布管理也成为一大难题;
  • 另一方面,大数据在各个行业当中的应用,如数字广告、互联网金融、电子商务、在线风控等场景当中,一个数据应用需要囊括报表分析、行为预测、实时监控、信用评分、个性化推荐、文本挖掘、时空数据等各类大数据技术方法的综合运用,而不仅仅是做企业经营的报表统计;
  • 并且,当下对运用数据的用户也不只是局限在专业的数据分析师、数据仓库工程师,更多的是能够让非技术背景的业务人员能够以他能够理解的方式灵活的探查数据。

在这三方面之下,如果想要运用好大数据就对企业的IT架构、技术人员综合能力的要求提出了更高的挑战,既要能了解各个专业分布式计算和存储资源的特性,又要求能将这些资源针对数据分析、算法服务等多种应用场景进行合理的架构,还要能够针对业务人员使用数据的场景足够了解并告诉相应,制作出面向业务的数据产品。

阿里云DTBoost数据加速器产品从大数据应用落地点出发,提供了一套大数据应用开发套件,能够帮助开发者从业务需求的角度有效的整合阿里云各个大数据产品,大大降低搭建大数据应用系统当中绝大部分的系统工程工作,在相应行业应用解决方案的结合下,能够让不是很熟悉大数据应用系统开发的程序员也能够快速为企业搭建大数据应用,从而实现大数据价值的快速落地。

产品概述

概括来讲,DTBoost是以标签中心为基础,建立跨多个云计算资源之上的统一逻辑模型,开发者可以在“标签”这种逻辑模型视图上结合画像分析、规则预警、文本挖掘、个性化推荐、关系网络等多个业务场景的数据服务模块,通过接口的方式进行快速的应用搭建。这种方式的好处一在于屏蔽掉应用开发人员对于下层多个计算存储资源的深入理解与复杂的系统对接工作,二在于通过数据服务的形式透出也有助于IT部门对数据使用的管理,避免资源的重复和冗余。 简单来说,因为大数据计算能力的增强,开发者只需要把需要使用的数据在模型当中进行管理后,即可通过API方式进行相应的计算对接到产品界面端上,或通过提供的界面配置功能直接生成可以独立部署的代码快速搭建相应的大数据产品。

DTBoost产品架构图

整个产品系列包括如下多个模块:

画像分析

  • 标签中心
  • 分析服务
  • 界面配置

规则引擎(即将公测)

数字营销(即将公测)

架构概况

在大数据环境下,一个数据应用往往需要通过多个计算资源来配合完成,最简单来说,一般数据需要先在离线环境当中进行离线加工处理(ETL),再同步至在线数据库当中进行在线分析查询(OLAP)。那么标签中心所能够做的就是与多个数据库进行通信,获取多个计算存储资源的数据元信息后进行逻辑建模,并把各个数据服务模块接口传入的指令解析后将真实的计算命令传给每一个计算资源。下面以其中以DTBoost数据服务模块当中整合分析作为案例来解释总体的架构。 以最常见的OLAP分析场景来看,一般需要从业务库当中将数据进行抽取,加载到大数据(离线)计算服务MaxCompute当中进行集中,进行相应的加工、衍生后,再把所需要分析的数据同步到在线分析库(在大数据量下通常会使用分析型数据库AnalyticDB)当中。

技术架构图

从上图可以看到,用户从DTBoost控制台或API进入,通过把自己的云计算资源授权给DTBoost后,就可以通过DTBoost读取各个云计算资源中的数据元信息。经过建模配置后,在相关的数据服务模块中可以进行手工/自动触发标签中心的智能搬运模块,通过把相关的数据同步调度任务发送给数据流服务DFS(Data Flow Service)和数据整合CDP,来对所需要整合的数据以标签粒度来进行业务库到离线数据仓库的批量大集中,以及到在线分析数据库的同步、建表、索引工作。在数据准备完成之后,就可以通过相关的数据服务API接口或者在控制台上基于标签模型视图之上进行相关的计算。对于当中需要离线计算加工的部分,一些常用的加工可以通过标签工厂来对标签进行批量的衍生(如常见的聚合、筛选组合等)落地到大数据计算服务当中(MaxCompute)。 整个过程可以看做DTBoost在大数据平台之上对各个计算资源之间满足常见业务场景的架构方案进行了系统集成,简化了各个系统之间手工对接等过程。

整个过程可以看做DTBoost在大数据平台之上对各个计算资源之间满足常见业务场景的架构方案进行了系统集成,简化了各个系统之间手工对接等过程。

用户除通过管理控制台对各个模块进行配置操作以外,各个模块从数据元信息到数据服务的操作处理都可以透过开放API整合入自己的应用系统当中。这种服务化的方式一方面提高了系统整合的便利性,另一方面也对企业数据应用管理上提供了便利。

数据服务开发模式

从企业IT架构上来看,IT或者数据部门可以通过DTBoost以数据服务化的方式把计算资源、数据资源、数据计算方法打包在一起,提供给业务部门开发、外部合作伙伴。一方面对应用开发者来说即开通即使用,方便快捷;另一方面从IT部门来说,对于平台的资源管控更加有效,一定程度上降低了数据的冗余存储与加工,特别针对于业务算法、消费者画像这些需要使用到明细数据计算的场景,既能够使用到明细数据,又不会影响到原始数据的生产,不造成大数据量的冗余拷贝,还能够降低数据使用的门槛,提供了有力的支撑。