表格存储数据湖投递可以全量备份或实时投递数据到数据湖OSS中存储,以满足更低成本的历史数据存储,以及更大规模的离线和准实时数据分析需求。
应用场景
利用数据湖投递可以实现如下场景需求:
冷热数据分层
数据湖投递结合表格存储的数据生命周期功能,可以快速实现OSS低成本存储全量数据,表格存储提供热数据的低延迟查询和分析的需求。
全量数据备份
数据湖投递可以自动将表格存储的全表数据投递到OSS Bucket中,作为备份归档数据。
大规模实时数据分析
数据湖投递可以实时(每2分钟)投递增量的表格存储数据到OSS,投递的数据支持按系统时间分区、Parquet列存格式存储;再利用OSS的高读带宽和列存面向扫描场景优化实现高效实时数据分析。
功能特性
数据湖投递的主要功能特性如下:
数据湖投递会自动拉取表格存储的全量和增量数据,数据积累到合适大小或者投递超过2分钟后,持久化到OSS中存储。
支持配置增量、全量、全量&增量三种数据投递模式,投递的所有数据均按照Parquet列存格式存储。
支持监控实时投递的同步时间点,数据湖投递提供了DescribeDeliveryTask API,该API会返回任务已成功投递的实时数据位点。
核心优势
易于使用
只需在控制台完成简单配置,即可实现全托管的表格存储到OSS的自动投递。无需监控和运维,投递任务保证SLA内同步任务平稳执行和随吞吐规模扩展。
全增量一体
提供全增量一体的数据投递能力。增量投递任务提供准实时体验,持续拉取新数据并缓存两分钟后写入OSS。
与计算生态无缝集成
投递的数据兼容开源生态标准,按照Parquet列存格式存储,兼容Hive命名规范。使用E-MapReduce可以直接对投递到OSS的数据进行外表分析。
数据分层的存储与访问体验
数据投递到OSS后,表格存储提供数据表、索引表、投递OSS等分层数据。满足不同场景的使用分析需求。
注意事项
目前支持数据湖投递功能的地域包括华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)。
使用流程
通过创建投递任务将表格存储数据投递到OSS。具体操作,请参见通过控制台投递数据到OSS和通过SDK投递数据到OSS。
使用EMR分析投递到OSS中的表格存储数据。具体操作,请参见使用EMR分析数据。