全部产品

Delta Lake 简介

Delta Lake 是可提高数据湖可靠性的开源存储层。Delta Lake 提供 ACID 事务和可缩放的元数据处理,并统一流和批数据处理。 Delta Lake 在现有 Data Lake 的顶层运行,与 Apache Spark API 完全兼容。

具体来说,Delta Lake提供:

  • Spark ACID事务:可序列化的隔离级别确保用户永远不会看到不一致的数据。

  • 可扩展的元数据处理:利用Spark的分布式处理能力,可以轻松处理数十亿个文件的PB级表的所有元数据。

  • 流式处理和批处理统一Delta Lake中的表既是批处理表,又是也是流式处理源和接收器。流式处理数据引入、批处理历史回填、交互式查询功能都是现成的。

  • 架构强制:自动处理架构变体,以防在引入过程中插入错误的记录。

  • 按时间顺序查看:数据版本控制支持回滚、完整的历史审核线索和可重现的机器学习试验

  • 更新插入和删除:支持合并、更新和删除操作,以启用复杂用例,如更改数据捕获、渐变维度 (SCD) 操作、流式处理更新插入等。

Delta Engine 优化使 Delta Lake 操作具有高性能,并支持各种工作负载,从大规模 ETL 处理到临时交互式查询均可。有关Delta Engine的信息,请参阅Delta Engine的相关文档。

开始

Delta Lake 快速入门概述了与Delta Lake相关的基础知识。该快速入门介绍了如何生成将 JSON 数据读取到 Delta 表中的管道以及如何修改表、读取表、显示表历史记录和优化表。

对于具有这些功能的Databricks笔记本,请参阅入门笔记本

资源

注意

有关本文章详细信息,请参考Databricks官方文档:Delta介绍