产品生态

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。

计算引擎类产品生态

DataWorks 构建了开放的计算引擎生态,深度集成MaxCompute、EMR、Hologres、Flink等主流引擎,支持跨引擎协同开发。用户可通过绑定计算资源,将其转化为平台可用的计算资源,进而实现一站式大数据开发治理​。DataWorks作为一站式大数据开发治理平台,不直接执行计算任务,而是通过引擎绑定机制,使开发者能够基于统一界面创建、编排并管理数据处理任务​。

目前,DataWorks支持的计算引擎生态包括:

MaxCompute

Hologres

Flink

EMR on ECS

EMR on ACK

EMR Serverless StarRocks

EMR Serverless Spark

CDH

AnalyticDB MySQL

AnalyticDB PostgreSQL

AnalyticDB for Spark

OpenSearch

ClickHouse

Lindorm

数据源类产品生态

数据源是DataWorks连接外部系统的统一配置入口,支持数据库、大数据存储、消息队列等多种异构数据源的标准化接入。用户仅需在管理中心一次性定义连接信息并配置网络连通,即可在多个产品模块中调用,​规避重复配置操作。同时,标准模式下支持开发与生产环境的数据源隔离配置,确保测试与线上环境物理隔离。

数据集成

数据源作为DataWorks中连接外部系统的标准化配置单元,通过预置多种异构数据源连接模板​(如MaxCompute、MySQL、OSS等),为数据集成任务提供统一的读写端点定义。基于此配置,数据集成模块可依据数据源特性,在统一界面中灵活选择单表/整库、离线/实时​等同步方式,实现全量迁移、增量捕获及全增量自动衔接​的数据接入能力。

更多操作信息,请参见数据源管理支持的数据源及同步方案

Amazon S3数据源

HDFS数据源

PolarDB数据源

Amazon Redshift数据源

Hive数据源

PolarDB-X 2.0数据源

AnalyticDB for MySQL 2.0数据源

Hologres数据源

PostgreSQL数据源

AnalyticDB for MySQL 3.0数据源

HttpFile数据源

Redis数据源

AnalyticDB for PostgreSQL数据源

Kafka数据源

RestAPI(HTTP形式)数据源

ApsaraDB For OceanBase数据源

KingbaseES(人大金仓)数据源

Salesforce数据源

Azure Blob Storage数据源

Lindorm数据源

SAP HANA数据源

BigQuery数据源

LogHub(SLS)数据源

SelectDB数据源

ClickHouse数据源

MaxCompute数据源

Sensors Data(神策)数据源

DataHub数据源

MariaDB数据源

StarRocks数据源

Data Lake Formation 数据源

Maxgraph数据源

SQL Server数据源

DB2数据源

Memcache(OCS)数据源

Tablestore数据源

Doris数据源

MetaQ数据源

Tablestore Stream数据源

DM(达梦)数据源

Milvus数据源

TiDB数据源

DRDS(PolarDB-X 1.0)数据源

MongoDB数据源

TSDB数据源

Elasticsearch数据源

MySQL数据源

Vertica数据源

FTP数据源

OpenSearch数据源

TOS数据源

GBase8a数据源

Oracle数据源

HBase数据源

Graph Database(GDB)数据源

OSS数据源

OSS-HDFS数据源

数据开发

DataWorks支持以异构计算引擎(如MaxCompute、EMR、ADB)作为底层算力资源进行任务开发,同时可将MySQL、Oracle数据库以“节点”形式接入开发链路。用户通过统一界面配置数据源连接与调度策略后,即可在开发、运维等模块调用,实现跨引擎与跨数据库的混合编排调度​。

更多操作信息,请参见:数据库节点

MySQL数据源

PolarDB MySQL数据源

Saphana数据源

SQL Server数据源

PolarDB Postgresql数据源

Vertica数据源

Oracle数据源

Doris数据源

DM数据源

PostgreSQL数据源

Mariadb数据源

KingbaseES数据源

StarRocks数据源

Selectdb数据源

OceanBase数据源

DRDS数据源

Redshift数据源

DB2数据源

Gbase8a数据源

数据地图

​数据源是数据地图实现元数据统一采集的基础配置单元。依托预配置的数据源连接信息,系统可通过内置采集器​获取数据库表结构、分区信息及跨链路血缘关系。采集完成后,用户可在数据地图中一站式查看表信息以及视化血缘图谱,实现数据资产的溯源分析。

更多信息请参见:元数据采集

AnalyticDB for PostgreSQL数据源

MySQL数据源

Hologres数据源

AnalyticDB for MySQL数据源

PostgreSQL数据源

Lindorm数据源

AnalyticDB for Spark数据源

SQL Server数据源

MaxCompute数据源

CDH Hive数据源

Oracle数据源

StarRocks数据源

Data Lake Formation(DLF)

Tablestore(OTS)数据源

Clickhouse数据源

E-MapReduce HIVE数据源

数据分析

数据分析借助引擎和数据源的能力,可以让您在DataWorks上流畅地进行数据处理、分析、加工及可视化操作。

更多操作信息参见:SQL查询与分析

MaxCompute数据源

Hologres数据源

EMR Hive数据源

EMR Spark SQL数据源

EMR Impala数据源

EMR Presto数据源

EMR Trino数据源

CDH Hive数据源

CDH Spark SQL数据源

StarRocks数据源

ClickHouse数据源

SelectDB数据源

Doris数据源

AnalyticDB for MySQL3.0数据源

AnalyticDB for PostgreSQL数据源

Tablestore(OTS)数据源

MySQL数据源

PostgreSQL数据源

Oracle

SQL Server数据源

数据服务

数据服务可以通过生产API,把异构数据源转化为标准的数据服务能力,实现数据共享。

更多操作信息请参见:生成API

AnalyticDB for MySQL 2.0数据源

StarRocks数据源

MaxCompute数据源

AnalyticDB for MySQL 3.0数据源

Doris数据源

HBase数据源

AnalyticDB for PostgreSQL数据源

PolarDB数据源

DB2数据源

Tablestore Stream数据源

ApsaraDB For OceanBase数据源

DM(达梦)数据源

MongoDB数据源

SAP HANA数据源