全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

产品历程

更新时间:2017-06-07 13:26:11

阿里云流计算脱胎于阿里集团内部双十一实时大屏业务,在阿里集团内部从最开始支持双十一大屏展现和部分实时报表业务的实时数据业务团队,历经4、5年的长期摸索和发展,到最终成长一个独立稳定的云计算产品团队。阿里云流计算期望将阿里集团本身沉淀多年的流计算产品、架构、业务能够以云产品的方式对外提供服务,助力更多中小企业实时化自身大数据业务。

最初阿里集团支撑双十一大屏等业务同样采用的是开源的Storm作为基础系统支持,并在上面开发相关Storm代码。这个时期的实时业务处于萌芽阶段,规模尚小。数据开发人员使用Storm原生API开发流式作业,开发门槛高,系统调试难,存在大量重复的人肉工作。

阿里集团的工程师针对这类大量重复工作,开始考虑进行业务封装和抽象。工程师们基于Storm的API开发出大量可复用的数据统计组件,例如实现了简单过滤、聚合、窗口等等作为基础的编程组件,并基于这类组件提供了一套XML语义的业务描述语言。基于这套设计,流式计算用户可以使用XML语言将不同的组件进行拼装描述,最终完成一整套完整的流计算处理流程。基于XML+Storm组件的编程方式,从底层上避免了用户大量的重复开发工作,同时亦降低了部分使用门槛。但我们的数据分析人员仍然需要熟悉整套编程组件和XML描述语法,这套编程方式离分析人员最熟悉的SQL方式仍然差距甚远。

任何技术的发展一定遵循 小众/创新大众/普及 的成长轨迹,而从小众到大众,从创新到普及的转折点一定在于技术的功能成熟和成本降低。阿里工程师开始思考如何更大程度降低数据分析产品门槛从而普及到更多的用户。得益于关系型数据库几十年沉淀的用户群体,使用经典的SQL模式去计算和处理数据一则可以对标SQL功能从而提炼我们的技术成熟度,二则可以利用用户熟悉的SQL模型可极大降低用户上手使用流计算的门槛。因此,阿里工程师最终开发一套StreamSQL替换了原有的XML+组件的编程方式,这套系统成为今天阿里云流计算的核心计算引擎(Galaxy)。当前这套系统以单机群数千台机器规模,在阿里集团内部服务20+BU,日均消息处理数千亿,流量近PB级别,成为阿里集团最核心的流式计算集群。

当前阿里云流计算在原有Galaxy系统基础上,更加丰富和提升了用户的使用体验,包括提供一整套的开发平台,完整的流式数据处理业务流程。使用阿里云流计算,受益于阿里大数据多年的技术和业务沉淀,用户可以完全享受到阿里集团最新最前沿的计算引擎能力,业务上可规避阿里集团多年在流式大数据的试错和教训,让用户自身可以更快、更轻松地实时化大数据处理流程,助力业务发展。

以下是阿里集团工程师使用阿里云流计算开发工期对比:

开发工期对比

本文导读目录