本文介绍了表格存储结合实时计算Flink实现大数据分析的样例场景、架构设计等。

背景信息

云数据库RDS MySQL基于阿里巴巴的MySQL源码分支,经过双十一高并发、大数据量的考验,拥有优良的性能。RDS MySQL支持实例管理、账号管理、数据库管理、备份恢复、白名单、透明数据加密以及数据迁移等基本功能。更多信息,请参见云数据库RDS MySQL概述

阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台,提供端到端亚秒级实时数据分析能力,并通过标准SQL降低业务开发门槛,助力企业向实时化、智能化大数据计算升级转型。更多信息,请参见什么是阿里云实时计算Flink版

表格存储(Tablestore)是阿里云自研的多模型结构化数据存储,可提供海量结构化数据的存储和查询分析服务。表格存储的分布式存储和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。更多信息,请参见什么是表格存储。多元索引基于倒排索引、列式存储、空间索引等,可解决大数据的复杂查询、分析聚合等需求。通过为数据表创建多元索引,可实现全文检索、前缀查询、模糊查询、组合查询、统计聚合等功能。

样例场景

某大型连锁超市会实时产生大量的消费数据,通过分析这些数据统计每分钟不同商品类别的GMV(商品交易总额),得到商品售卖热度、门店经营状态等信息,便于辅助经营者的商业决策。

架构设计

样例场景的实现过程说明如下,架构图如下图所示。

  1. 使用云数据库RDS作为商品消费订单的存储库并通过mysql-cdc connector作为源表接入实时计算Flink。
  2. 使用表格存储作为商品元信息的存储库并通过ots connector作为维表接入实时计算Flink。
  3. 在Flink流计算作业中关联消费记录和商品信息数据并写入表格存储中。
  4. 基于表格存储多元索引或者SQL查询功能进行数据分析。
fig_samplescenary001