Lindorm助力新榜构建高并发高性能的数据处理平台,实现了无感知的跨引擎协同操作、每秒千万级的高并发写入与点查能力和压缩率100%的提升,降低存储的同时全面保障业务的稳定性和数据处理效率。
客户简介
新榜作为数据驱动的头部内容科技公司,覆盖了全平台、各层级的新媒体资源,提供内容营销、直播电商、培训运营、版权分发等服务,以内容服务新媒体产业。新榜基于微信、抖音、小红书、快手等主流内容平台,提供完善的数据工具,为用户带来实时热门素材、品牌声量、直播电商等全面的数据监测分析能力,同时提供基于多平台新媒体数据的企业级数据服务。
业务要求与挑战
新榜原方案采用Elasticsearch(点查、多维检索)、在线分析库(分析)和离线处理库架构,存储作品、创作者等多维度数据,处理多维度关联和聚合查询,承载大量实时内容同步和每日大量数据的更新。
在使用原方案的过程中,业务面临着以下性能瓶颈及成本问题:
Elasticsearch入库性能差:业务系统日均处理4000万+条新作品写入和2亿+数据更新,遭遇写入性能瓶颈,峰值时段倒排索引构建延迟高达5秒。
在线分析库更新能力差:高频更新场景下延迟显著,大规模多表聚合操作依赖预计算临时表。
架构复杂导致数据冗余:同一数据在多个系统中冗余存储,存储成本高,资源利用率低。
多组件运维和开发复杂度高:需要运维多组件并完成数据链路的搭建。新业务需求需适配多端接口,开发周期与成本成倍增长。
作为国内领先的新媒体内容平台,新榜的业务存在着以下关键需求:
海量更新与批量分析:支持每秒万行级别数据更新、千万级别数据量和低延迟的实时分析。
综合且灵活的查询能力:
多维过滤:例如查找出粉丝量在1万以上、地域在上海、粉丝标签为母婴的博主。
去重聚合:例如热度排行版产出时的数值统计。
Join分析:例如用户表与作品详情表的Join联合分析。
其他查询需求。
成本优化:减少存储与计算资源消耗,降低数据同步维护的成本。
解决方案
Lindorm作为多模融合的一体化平台,涵盖了宽表、搜索、列存和计算的能力,对标客户原先Elasticsearch+在线分析库+离线处理库的架构。
Lindorm的一体化方案实现了无感知的跨引擎协同,仅需通过统一接口查询,命令会被自动解析路由至对应引擎并直接返回结果集。
客户价值
无痛迁移,灵活开发
Lindorm提供兼容Elasticsearch开源协议接口和MySQL协议接口,方便业务灵活搭配,降低开发成本。
针对新榜平台的新业务:通过Lindorm SQL统一接口实现多引擎协同,高效写入和查询数据,显著降低开发和维护的复杂度。
针对新榜平台的存量业务:保留ES API使用方式,数据丝滑迁移至Lindorm。
去除冗余,降低成本
新榜原方案中,需将数据分别存储一份在Elasticsearch、在线分析库及离线处理系统,导致了200%的数据冗余。通过Lindorm统一的冷热数据分层存储方案及一体化架构,不仅保证了原始数据只需存储一份,显著降低存储成本,还实现了多引擎索引构建与跨引擎查询整合。
针对不同存储需求,提供不同方案:
完整数据:统一存储在宽表引擎内,并按照冷热分界线自动归档数据至不同介质,降低存储成本。查询时自动查询冷热数据,业务无感知。
需多维检索、轻量聚合的数据列:创建搜索索引,存储在搜索引擎内。
需分析、大数据量聚合的数据列:创建列存索引,存储在列存引擎内。
超高性能,降本增效
Lindorm的宽表引擎支持千万级并发写入与点查,有效分流搜索库负载,同时通过深度压缩算法优化实现存储成本降低。
与原Elasticsearch方案相比,Lindorm宽表引擎更能应对高频更新及批量数据处理场景,其高并发写入与点查性能呈现数量级提升,支持每秒千万级并发写入、更新和查询,提供可无限横向扩展的分布式架构,满足了业务每日海量数据更新需求及基于作品ID、用户ID等主键的高并发点查。同时,通过深度优化的ZSTD压缩算法,Lindorm可将存储空间压缩至传统数据库的50%,有效降低存储成本。
开源数据集
原始文件
Lindorm
HBase
MySQL
MongoDB
MongoDB
(ZSTD)
订单数据(TPC-H)
1.76 GB
639 MB
1.23 GB
2.10 GB
1.63 GB
1.32 GB
车联网数据(NGSIM2)
1.54 GB
818 MB
1.72 GB
1.72 GB
1.88 GB
1.50 GB
日志数据
(Web Logs3)
3.51 GB
387 MB
737 MB
737 MB
1.17 GB
893 MB
行为数据
(IJCAI-20154)
1.91 GB
721 MB
1.48 GB
1.48 GB
3.33 GB
2.74 GB
在开源数据集下,Lindorm对比其他数据库压缩率提升100%。
多模融合,高效统一
Lindorm内部多模融合能力保证了各引擎间数据的一致性和同步率,跨引擎数据同步链路通过索引自动搭建,帮助新榜省去了在原Elasticsearch、在线分析库和离线处理库之间手动搭建链路的工作,节省了日常运维成本,实现了一体化数据管理。按需建立索引后,对外呈现视图为一张大宽表,部分列提供点查能力,部分列支持多维检索和全文检索,部分列可进行实时分析和批处理,业务可基于统一SQL接口完成查询并获取完整结果集。