云原生多模数据库 Lindorm列存引擎是一款高性能、低成本、稳定可靠的在线列存数据库引擎服务,面向IoT、车联网、日志等场景,提供高效读写、高压缩比存储、高性能在线分析等能力。
核心能力
Iceberg生态兼容:Lindorm列存引擎兼容Iceberg数据湖生态,可以无缝对接到Lindorm计算引擎的Spark、Ray等基础设施,提供批处理能力。
全托管数据湖治理:Lindorm列存引擎提供全托管的数据湖治理能力,如文件合并、快照清理、冷热分离等,列存引擎会自动调度计算引擎提供的Spark弹性计算资源来实现数据湖治理。
高性能写入:支持百万级QPS的高并发实时写,写入性能随集群规模横向扩展。面向IoT、IoV等宽列数据场景,可通过Lindorm流引擎的高性能列存Sink Connector,支持万列表的高效写入。
高新鲜度查询:Lindorm列存引擎在数据湖之上构建了实时Delta层,通过Lindorm计算引擎,对Delta层和数据湖透明融合查询。支持数据写入成功后立即可见。
支持主键表:Lindorm列存引擎支持主键表,支持覆盖写、部分更新等能力。
产品架构
云原生多模数据库 Lindorm列存引擎的架构图如下:
下面对Lindorm列存引擎中的各个模块进行说明:
Delta层:Delta层负责接收新数据的写入和查询,通过LogStore确保新写入数据的持久性、通过DeltaStore存储近期新接收的数据。并对计算引擎OLAP资源组提供数据查询接口。
Base层:Base层负责存储全量数据,以Iceberg兼容数据湖格式将数据持久化在LindormDFS上。
LakehouseCoordinator:LakehouseCoordinator会周期性触发Dump动作,将数据从Delta层写入到Base层。LakehouseCoordinator会自动对Base层进行治理,对Base层数据湖执行文件合并、快照清理、冷热分离等操作。LakehouseCoordinator会调用计算引擎的ETL资源来完成Dump和Base层数据治理动作。
计算引擎-OLAP资源组:计算引擎-OLAP资源组负责执行列存表数据即席查询,支持Base层与Delta层进行联合查询(可选),使得Lindorm列存引擎具备实时级的数据新鲜度。
计算引擎-ETL资源组:计算引擎-ETL资源组支持对列存表执行批处理操作,如离线计算、批量导入&更新等。计算引擎-ETL资源组也会被Lindorm列存引擎调用,执行Dump和Base层数据治理动作。