DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。
计算引擎类产品生态
DataWorks 构建了开放的计算引擎生态,深度集成MaxCompute、EMR、Hologres、Flink等主流引擎,支持跨引擎协同开发。用户可通过绑定计算资源,将其转化为平台可用的计算资源,进而实现一站式大数据开发治理。DataWorks作为一站式大数据开发治理平台,不直接执行计算任务,而是通过引擎绑定机制,使开发者能够基于统一界面创建、编排并管理数据处理任务。
目前,DataWorks支持的计算引擎生态包括:
数据源类产品生态
数据源是DataWorks连接外部系统的统一配置入口,支持数据库、大数据存储、消息队列等多种异构数据源的标准化接入。用户仅需在管理中心一次性定义连接信息并配置网络连通,即可在多个产品模块中调用,规避重复配置操作。同时,标准模式下支持开发与生产环境的数据源隔离配置,确保测试与线上环境物理隔离。
数据集成
数据源作为DataWorks中连接外部系统的标准化配置单元,通过预置多种异构数据源连接模板(如MaxCompute、MySQL、OSS等),为数据集成任务提供统一的读写端点定义。基于此配置,数据集成模块可依据数据源特性,在统一界面中灵活选择单表/整库、离线/实时等同步方式,实现全量迁移、增量捕获及全增量自动衔接的数据接入能力。
更多操作信息,请参见数据源管理、支持的数据源及同步方案。
数据开发
DataWorks支持以异构计算引擎(如MaxCompute、EMR、ADB)作为底层算力资源进行任务开发,同时可将MySQL、Oracle等数据库以“节点”形式接入开发链路。用户通过统一界面配置数据源连接与调度策略后,即可在开发、运维等模块调用,实现跨引擎与跨数据库的混合编排调度。
更多操作信息,请参见:数据库节点。
MySQL数据源 | PolarDB MySQL数据源 | Saphana数据源 |
SQL Server数据源 | PolarDB Postgresql数据源 | Vertica数据源 |
Oracle数据源 | Doris数据源 | DM数据源 |
PostgreSQL数据源 | Mariadb数据源 | KingbaseES数据源 |
StarRocks数据源 | Selectdb数据源 | OceanBase数据源 |
DRDS数据源 | Redshift数据源 | DB2数据源 |
Gbase8a数据源 |
数据地图
数据源是数据地图实现元数据统一采集的基础配置单元。依托预配置的数据源连接信息,系统可通过内置采集器获取数据库表结构、分区信息及跨链路血缘关系。采集完成后,用户可在数据地图中一站式查看表信息以及视化血缘图谱,实现数据资产的溯源分析。
更多信息请参见:元数据采集。
AnalyticDB for PostgreSQL数据源 | MySQL数据源 | Hologres数据源 |
AnalyticDB for MySQL数据源 | PostgreSQL数据源 | Lindorm数据源 |
AnalyticDB for Spark数据源 | SQL Server数据源 | MaxCompute数据源 |
CDH Hive数据源 | Oracle数据源 | StarRocks数据源 |
Data Lake Formation(DLF) | Tablestore(OTS)数据源 | Clickhouse数据源 |
E-MapReduce HIVE数据源 |
数据分析
数据分析借助引擎和数据源的能力,可以让您在DataWorks上流畅地进行数据处理、分析、加工及可视化操作。
更多操作信息参见:SQL查询与分析。
MaxCompute数据源 | Hologres数据源 | EMR Hive数据源 |
EMR Spark SQL数据源 | EMR Impala数据源 | EMR Presto数据源 |
EMR Trino数据源 | CDH Hive数据源 | CDH Spark SQL数据源 |
StarRocks数据源 | ClickHouse数据源 | SelectDB数据源 |
Doris数据源 | AnalyticDB for MySQL3.0数据源 | AnalyticDB for PostgreSQL数据源 |
Tablestore(OTS)数据源 | MySQL数据源 | PostgreSQL数据源 |
Oracle | SQL Server数据源 |
数据服务
数据服务可以通过生产API,把异构数据源转化为标准的数据服务能力,实现数据共享。
更多操作信息请参见:生成API。