事件仓概述

更新时间:
复制为 MD 格式

概述

重要

此功能目前处于邀约测试阶段。如果您想使用此功能,请在功能邀测申请表中填写相关信息进行开通。

EventHouse 是 EventBridge 的云原生事件湖仓(Cloud-Native Event Lakehouse),负责事件数据的存储、治理与数据智能。

EventBridge 的事件总线(EventBus)解决事件的路由与分发问题,EventHouse 在此基础上解决事件数据“存下来之后怎么用”的问题。EventHouse 将消息队列(如 Kafka、RocketMQ)、关系型数据库(如 MySQL)以及对象存储(如 OSS)中的结构化、半结构化和非结构化数据统一抽象为标准事件模型,通过内置的 Open Catalog 和 AI 语义层,支持以 Zero-ETL 方式管理多源异构数据,并通过 SQL 查询或 AI Agent 直接进行实时分析。

image

核心组件

EventHouse 由三个核心组件构成,各组件独立又协同工作:

组件

定位

核心能力

数据目录 Catalog

元数据管理中心

多源元数据注册、结构变更管理、数据血缘追踪、细粒度权限控制

数据分析 Analysis

计算引擎层

流批一体 SQL、联邦查询、物化视图(Materialized View)、实时异常检测

数据智能 Luma

AI 分析层

AI 语义层、MCP 协议集成、DataAgent 自主分析、自然语言查询

核心价值

Zero-ETL(无感数据集成)

支持直接映射外部数据源(如 RDS、OSS),无需将数据搬运到 EventHouse 即可执行联合查询,降低数据延迟和存储成本。

统一治理(Unified Governance)

通过 Open Catalog 为消息队列中缺乏 Schema 定义的数据(即"暗数据")提供标准化的元数据管理和血缘追踪,打破数据孤岛。

智能体分析(Agentic Analytics)

原生集成 MCP(Model Context Protocol),AI Agent 可直接理解事件数据结构,通过自然语言提问完成数据分析。


数据目录 Catalog

数据目录(Catalog)是 EventHouse 的元数据管理中心,负责管理所有接入数据源的元数据、Schema 定义、访问权限及数据血缘。

统一元数据管理

  • 多源映射:Catalog 自动发现并注册来自 Kafka、RocketMQ、RDS 等数据源的元数据。

  • 结构变更(Schema Evolution):自动推断并管理事件数据的 Schema 版本。当上游业务字段变更时,通过兼容性版本管理确保下游分析任务不中断。

  • 数据血缘追踪:追踪事件从产生(Producer)、存储(EventStore)到分析(Analysis)的全链路,用于故障排查和影响面评估。

开放生态兼容

Open Catalog 支持 Iceberg、Hudi、Delta Lake 等开放表格式,数据不被厂商锁定,可自由选择计算引擎。

权限与安全

提供库(Database)、表(Table)、列(Column)三级细粒度访问控制(ACL)。

应用场景:统一数据视图

在电商场景中,订单数据可能分散在 RocketMQ(实时流)和 MySQL(持久化)中。通过 Catalog 创建统一 View,逻辑关联 MQ 中的实时订单流和数据库中的用户信息表。分析时只需查询该 View,无需关心底层数据的物理存储位置。


数据分析 Analysis

数据分析(Analysis)是 EventHouse 的计算引擎层,提供高性能的 SQL 查询、流式处理和联邦查询能力。

智能查询引擎

  • 多模态查询:支持 SQL(结构化查询)、NoSQL(文档型查询)和 External(外部数据源查询)三种查询模式。

  • 流批一体:同一套 SQL 语法既可查询历史归档数据(Batch),也可查询实时流入的事件流(Streaming)。

  • 物化视图(Materialized View):支持预计算物化视图,将高频查询结果缓存,实现毫秒级响应。

联邦查询

  • 跨源联合分析:无需数据迁移,通过 SQL JOIN 直接关联 EventHouse 内部表与外部数据源(如 OSS 日志文件、RDS 维表)。

  • 谓词下推(Predicate Pushdown):将过滤条件下推到源端执行,仅拉取必要数据,提升查询效率。

实时异常检测

  • 内置时间窗口函数(Tumble、Hop、Session),支持实时计算交易成功率、延迟分布等指标。

  • 结合规则引擎,当分析结果触发阈值(例如“1 分钟内失败订单超过 100”)时,自动触发告警事件。

技术优势

特性

说明

存算分离

存储基于低成本对象存储,计算资源弹性伸缩,应对流量洪峰

高压缩比

针对事件数据(JSON/CloudEvents)进行列式压缩,存储成本较传统数据库降低 50% 以上


数据智能 Luma

Luma 是 EventHouse 的 AI 分析层,通过 AI 语义层和 MCP 协议,使大语言模型(LLM)能够直接理解和分析事件数据。

DataAgent

Luma 内置 DataAgent,可自主执行"感知 - 规划 - 行动"循环:

  1. 感知:监控到交易量异常下跌。

  2. 规划:决定查询关联的支付网关日志和数据库连接池状态。

  3. 行动:自动生成 SQL 进行关联分析,输出根因报告。

AI 语义层

传统数据库字段(如 col_1status_code )对 AI 模型缺乏业务含义。Luma 支持在 Catalog 中为字段添加业务描述、同义词和计算逻辑,基于这些语义信息提升 Text-to-SQL 的准确率。

示例 :通过自然语言提问"查询昨天北京地区支付失败的订单",Luma 自动生成对应 SQL 并返回结果。

应用场景:电商风控

  1. 运营人员提问:"最近半小时有没有异常的刷单行为?"

  2. Luma Agent 通过 MCP 获取 Catalog 信息,识别 Transaction_TableUser_Behavior_Log

  3. Agent 自动生成关联 SQL(包含时间窗口、IP 聚合、设备指纹分析),在 EventHouse 分析引擎中执行。

  4. 返回疑似刷单的 UserID 列表,结合知识库生成风险报告。

MCP 协议集成

EventHouse 原生支持 MCP(Model Context Protocol)。任何支持 MCP 的 AI Agent(如 LangChain、Dify 或自定义 Agent)均可连接 EventHouse:

  • 工具化查询:查询能力封装为 MCP Tools,Agent 根据用户意图自主调用。

  • 上下文感知:Agent 获取数据 Schema 作为上下文,生成更准确的分析结果。

MCP 协议集成功能待开放,具体开放时间请关注产品动态。