文档

大数据近实时数据投递MaxCompute

更新时间:
一键部署

本文介绍离线大数据场景使用MaxCompute构建云上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。

直达最佳实践

点击查看最佳实践详情

更多最佳实践

点击查看更多最佳实践

场景描述

本最佳实践构建以下场景:

  • 以华东2(上海)地域模拟线下IDC,使用阿里云EMR服务部署Kafka集群。

  • 华东1(杭州)地域模拟阿里云,部署DataHub、MaxCompute等服务实例,构建云上数仓。

  • 使用Logstash将Kafka集群消息抽取至MaxCompute。

  • 通过MaxComputeUDF功能执行复杂类型转换并实现数据动态分区。

  • 配置MaxCompute周期调度业务流程,实现数据准实时入仓。全链路数据延时15分钟左右。

方案架构

166
  • 本页导读
文档反馈