表格存储有互联网应用架构(包括数据库分层架构和分布式结构化数据存储架构)、数据湖架构和物联网架构三种典型应用架构。本文结合表格存储的典型应用架构介绍了不同应用架构下的应用场景。
互联网应用
目前互联网已在日常生活中广泛应用,人们可以在互联网上购物、社交、游戏等。表格存储互联网应用架构能够满足互联网中大部分应用的业务需求,典型应用场景包括历史订单数据场景、IM场景和Feed流场景。
历史订单数据场景
订单系统是一个非常通用的系统,存在于各行各业,例如电商订单、银行流水、运营商话费账单等。随着互联网的发展以及各企业对数据的重视,需要存储和持久化的订单量越来越大。传统关系型数据能够解决需要支持强一致的事务的在线业务,但海量的订单关系型数据无法保存全量数据,因此需要支持数据分层存储。
订单数据场景中的核心需求如下:
在线数据同步:实时数据与历史数据分层存储,需要支持实时同步在线业务。
历史数据存储:历史订单数据存储,需要支持低延迟数据点查与搜索以及高性价比海量数据存储。
数据分析:针对历史库进行报表统计分析,需要支持计算组件实现分析统计。
订单数据场景中可以使用表格存储互联网应用架构中的数据库分层架构来实现。场景架构如下图所示。
表格存储作为关系数据库的存储补充用于存储历史订单数据并通过DTS实时同步关系数据库中的数据,同时支持使用索引实现多字段组合查询以及支持对接流批计算引擎实现数据统计分析。
IM场景
IM(Instant Messaging,即时通讯)已成为当前互联网业务的基础组件,广泛应用在社交、游戏、直播等场景,具有数据量大、实时性要求高、数据增长快等特点,因此需要支持海量消息的存储、同步和检索。
IM场景中的核心需求如下:
消息历史库:按照对话存储历史消息,需要存储海量数据且存储易拓展。
消息同步库:按照接收者存储同步消息,需要支持高并发写入以及实时拉取(写扩散)。
消息索引:对历史库数据进行数据检索,需要支持数据更新同步。
IM场景中可使用表格存储互联网应用架构中的分布式结构化数据存储架构来实现。场景架构如下图所示。
表格存储专为IM场景和Feed流场景设计了Timeline轻量级消息模型,能够支持同步表百TB存储、存储表PB级存储、每秒百万写扩散消息写入以及毫秒级同步库拉取。
Feed流场景
Feed流成为社交、媒体、新闻等领域的标准信息传递形态,产生了朋友圈、微博、头条等主流产品。由于Feed流场景的读写比一般为100:1,往往采用推模式,因此需要支持高并发主键自增消息写入。
Feed流场景的核心需求如下:
个人主页信息存储:按照发布者存储历史消息,需要支持海量数据存储以及内容检索。
关注信息存储:按照关注者存储消息数据,需要支持高并发写入以及实时拉取(写扩散)。
关系列表:存储关注关联关系,由于每次查看发布均会使用,需要支持数据快速更新查询。
Feed流场景中可使用表格存储互联网应用架构中的分布式结构化数据存储架构来实现。场景架构如下图所示。
表格存储专为IM场景和Feed流场景设计了Timeline轻量级消息模型,能够支持同步表百TB存储、存储表PB级存储、每秒百万写扩散消息写入以及毫秒级同步库拉取。
大数据
大数据具有数据规模大、数据类型多样、生成速度快、价值巨大但密度低的特点,如何高性价比存储海量持续增长的数据以及快速从海量数据中获取有价值的信息成为大数据领域的关注重点。表格存储数据湖架构能有效的解决大数据领域面临的数据存储与数据分析问题,典型应用场景包括推荐系统和舆情&风控分析场景。
推荐系统
推荐系统作为当前所有业务精细化运营的主要手段,广泛应用在电商、短视频、新闻等场景,具有数据量大、实时更新、个性化推荐等特点,因此需要支持海量消息存储以及实时与离线分析。
推荐系统的核心需求如下:
行为日志:存储客户端写入实时数据,需要支持高并发写入以及对接流式计算进行实时分析。
历史数据:冷数据同步到OSS数据湖存储,需要支持数据投递、便于数据分层。
用户标签:对分析标签与推荐信息进行存储,需要支持属性列横向拓展以及高效检索。
推荐系统场景中可使用表格存储的数据湖架构来实现。场景架构如下图所示。
舆情&风控分析(数据爬虫)场景
通过对舆情信息的分析与把控,可以有效的分析与洞察市场,例如针对点评、新闻、评论等信息的收集分析,需要丰富的多类数据高并发写入以及便捷的数据流转进行计算分析。
舆情&风控分析场景中的核心需求如下:
原始数据写入存储:海量数据爬虫,需要支持高并发写入能力与PB级存储。
多数据类型存储:爬取的内容与生成的标签种类丰富,需要支持写入Schema-Free。
数据分析:对数据分阶段处理原始信息,生成结构化标签并存储结果,需要支持对接实时计算与离线计算。
舆情&风控分析场景中可使用表格存储的数据湖架构来实现。场景架构如下图所示。
物联网
对系统的运维监控以及对物联网(Internet of Things,简称IoT)场景中环境与人的监控均有助于进行事实理解与决策,因此需要支持众多设备与系统的高并发写入与数据存储以及决策分析。
监控&IoT场景的核心需求如下:
数据高并发写入:面向众多设备与系统,需要支持百万级节点实时写入。
数据实时聚合:对原始数据监控预聚合,降低精度,需要支持数据实时同步对接流计算。
数据存储:长期保存数据,需要支持单表规模极大以及高性价比存储。
监控&IoT场景中可使用表格存储的物联网架构来实现。场景架构如下图所示。