文档

数据湖投递概述

更新时间:

表格存储数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储,以满足更低成本的历史数据存储,以及更大规模的离线和准实时数据分析需求。

应用场景

利用数据湖投递可以实现如下场景需求:

  • 冷热数据分层

    数据湖投递结合表格存储数据生命周期功能,可以快速实现OSS低成本存储全量数据,表格存储提供热数据的低延迟查询和分析的需求。

  • 全量数据备份

    数据湖投递可以自动将表格存储的全表数据投递到OSS Bucket中,作为备份归档数据。

  • 大规模实时数据分析

    数据湖投递可以实时(每2分钟)投递增量的表格存储数据到OSS,投递的数据支持按系统时间分区、Parquet列存格式存储;再利用OSS的高读带宽和列存面向扫描场景优化实现高效实时数据分析。

image.png

功能特性

数据湖投递的主要功能特性如下:

  • 数据湖投递会自动拉取表格存储的全量和增量数据,数据积累到合适大小或者投递超过2分钟后,持久化到OSS中存储。

  • 支持配置增量、全量、全量&增量三种数据投递模式,投递的所有数据均按照Parquet列存格式存储。

  • 支持监控实时投递的同步时间点,数据湖投递提供了DescribeDeliveryTask API,该API会返回任务已成功投递的实时数据位点。

核心优势

  • 易于使用

    只需在控制台完成简单配置,即可实现全托管的表格存储到OSS的自动投递。无需监控和运维,投递任务保证SLA内同步任务平稳执行和随吞吐规模扩展。

  • 全增量一体

    提供全增量一体的数据投递能力。增量投递任务提供准实时体验,持续拉取新数据并缓存两分钟后写入OSS。

  • 与计算生态无缝集成

    投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。使用E-MapReduce可以直接对投递到OSS的数据进行外表分析。

  • 数据分层的存储与访问体验

    数据投递到OSS后,表格存储提供数据表、索引表、投递OSS等分层数据。满足不同场景的使用分析需求。

注意事项

目前支持使用数据湖投递功能的地域有华东1(杭州)、华东2(上海)、华北2(北京)和华北3(张家口)。

使用流程

  1. 通过创建投递任务将表格存储数据投递到OSS。具体操作,请参见通过控制台投递数据到OSS通过SDK投递数据到OSS

  2. 使用EMR分析投递到OSS中的表格存储数据。具体操作,请参见使用EMR分析数据