全部产品

表格存储数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储,以满足更低成本的历史数据存储,以及更大规模的离线和准实时数据分析需求。

应用场景

利用数据湖投递可以实现如下场景需求:

  • 冷热数据分层

    数据湖投递结合表格存储的数据生命周期功能,可以快速实现OSS低成本存储全量数据,表格存储提供热数据的低延迟查询和分析的需求。

  • 全量数据备份

    数据湖投递可以自动将表格存储的全表数据投递到OSS Bucket中,作为备份归档数据。

  • 大规模实时数据分析

    数据湖投递可以实时(每2分钟)投递增量的表格存储数据到OSS,投递的数据支持按系统时间分区、Parquet列存格式存储;再利用OSS的高读带宽和列存面向扫描场景优化实现高效实时数据分析。

  • 加速SQL分析性能

    当表格存储数据未建立多元索引且查询条件中不包含主键列的过滤条件时,可以通过数据投递自动同步数据到OSS,再利用DLA+OSS数据扫描实现SQL分析加速。

    image.png

功能特性

数据湖投递的主要功能特性如下:

  • 数据湖投递会自动拉取表格存储的全量和增量数据,数据积累到合适大小或者投递超过2分钟后,持久化到OSS中存储。

  • 支持配置增量、全量、全量&增量三种数据投递模式,投递的所有数据均按照Parquet列存格式存储。

  • 支持监控实时投递的同步时间点,数据湖投递提供了DescribeDeliveryTask API,该API会返回任务已成功投递的实时数据位点。

核心优势

  • 易于使用

    只需在控制台完成简单配置,即可实现全托管的表格存储到OSS的自动投递。无需监控和运维,投递任务保证SLA内同步任务平稳执行和随吞吐规模扩展。

  • 全增量一体

    提供全增量一体的数据投递能力。增量投递任务提供准实时体验,持续拉取新数据并缓存两分钟后写入OSS。

  • 与计算生态无缝集成

    投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。使用数据湖分析E-MapReduce可以直接对投递到OSS的数据进行外表分析。

  • 数据分层的存储与访问体验

    数据投递到OSS后,表格存储提供数据表、索引表、投递OSS等分层数据。满足不同场景的使用分析需求。