数据湖生态接入

本文介绍对象存储OSS支持接入的数据湖生态。

生态类型

引擎/平台

参考文档

开源生态

Elasticsearch

将Elasticsearch的快照备份至OSS

Flink

Fluentd

使用Fluentd访问OSS

Flume

Flume使用JindoSDK写入OSS-HDFS服务

Hadoop

自建Hadoop使用JindoSDK访问OSS-HDFS服务

HBase

Hive

Hive使用JindoSDK处理OSS-HDFS服务中的数据

HDP

通过HDP 2.6 Hadoop读取和写入OSS数据

Kafka

将Kafka数据导入OSS

Logstash

使用Logstash将日志导入OSS

Impala

Impala使用JindoSDK查询OSS-HDFS服务中的数据

Presto

Presto使用JindoSDK查询OSS-HDFS服务中的数据

Spark

Spark使用JindoSDK查询OSS-HDFS服务中的数据

Thanos

使用Thanos访问OSS

阿里云生态

DataLakeAnalytics

DataLakeAnalytics+OSS:基于OSS的Severless的交互式查询分析

EMR

在EMR Hive或Spark中访问OSS-HDFS

Flink

Flume

使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务

HBase

HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储

Hive

Hive以EMR集群的方式处理OSS-HDFS服务中的数据

Impala

Impala以EMR集群的方式查询OSS-HDFS服务中的数据

MaxCompute

基于OSS+MaxCompute构建数据仓库

PAI

使用OSS中的数据作为机器学习的训练样本

Presto

Presto以EMR集群的方式查询OSS-HDFS服务中的数据

SLS

通过SLS完成日志数据入湖OSS

Spark

Spark以EMR集群的方式处理OSS-HDFS服务中的数据

Sqoop

Sqoop以EMR集群的方式读写OSS-HDFS服务的数据

第三方生态

Databend Cloud

通过云原生数仓Databend Cloud分析OSS数据

SeaTunnel

通过SeaTunnel集成平台将数据写入OSS-HDFS服务