流式数据采集处理分发-数据总线 DataHub-阿里云

备案控制台

输入文档关键字查找

阿里云流数据处理平台数据总线DataHub是流式数据（Streaming Data）的处理平台，提供流式数据的发布 (Publish)、订阅（Subscribe）和分发功能，支持构建基于流式数据的分析和应用。

产品概述

数据总线（DataHub）是阿里云提供的一款流式数据（Streaming Data）处理平台，核心功能包括流式数据的发布（Publish）、订阅（Subscribe）与分发，支持构建基于流式数据的分析和应用。

主要能力

数据采集：DataHub服务对各种移动设备、应用软件、网站服务及传感器等多种来源产生的大量流式数据，进行持续采集、存储和处理。
实时处理：写入DataHub的流式数据（如Web访问日志、应用事件等）可通过流计算引擎（如StreamCompute）或自定义应用程序处理，以生成实时图表、报警信息、统计数据等实时的数据处理结果。

整体架构

DataHub基于阿里云自研的飞天分布式平台，具有高可用、低延迟、高可扩展、高吞吐的特点。
通过统一的REST API对外提供能力，上层应用可通过多语言SDK与之交互。
同时DataHub也与MaxCompute、StreamCompute等云产品或计算引擎无缝连接，支持使用SQL进行流数据分析。
DataHub服务也提供分发流式数据到各种云产品的功能，目前支持分发到MaxCompute（原ODPS），OSS等。

产品优势

高吞吐：最高支持单Shard每日1.6亿级别的写入量。
实用性：实时收集不同来源数据并实时处理，快速响应业务。
易用性
- 提供包括C++、Java、Python、Go等语言的SDK包。
- 提供Restful API规范，支持自定义实现访问接口。
- 提供包括Fluentd、Logstash、Flume等常用的客户端插件。
- 支持强Schema的结构化数据（创建Tuple类型的Topic）和无类型的非结构化数据（创建Blob类型的Topic）。
高可用
- 服务可用性不低于99.9%。
- 数据持久性不低于99.999%。
- 规模自动扩展，不影响对外服务。
- 数据自动多重冗余备份。
动态伸缩
每个主题（Topic）的数据流吞吐能力可以动态扩展和减少，最高可达到每主题256000 Records/s的吞吐量。
高安全性
- 提供企业级多层次安全防护，多用户资源隔离机制。
- 提供多种鉴权和授权机制及白名单、主子账号功能。

使用场景

数据总线DataHub作为流式数据处理服务，可以结合阿里云众多云产品，构建一站式的数据处理服务。

environment

流计算StreamCompute

实时计算Flink是阿里云提供的流计算引擎，提供使用类SQL的语言来进行流式计算。数据总线DataHub和StreamCompute无缝结合，可以作为StreamCompute的数据源和输出源，具体可参考实时计算（流计算）。

流处理应用

支持用户自定义应用订阅数据总线DataHub中的数据，并实时加工，输出处理结果。应用计算产生的结果可以进一步输出到数据总线DataHub中，并使用另外一个应用来处理上一个应用生成的流式数据，从而构建出数据处理流程的DAG。

流式数据归档

流式数据可以归档到MaxCompute（原ODPS）中。通过创建数据总线DataHub Connector，指定相关配置，即可创建将数据总线DataHub中流式数据定期归档的同步任务。

上一篇：产品简介下一篇：功能特性

该文章对您有帮助吗？