DataWorks 提供一站式大数据开发与治理平台,涵盖数据集成、开发、建模、分析、质量、服务、地图及开放能力,支持全链路数据处理与企业级数据中台建设。本文为您介绍DataWorks的核心功能特性。
数据集成:全领域数据汇聚
DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
功能概述
DataWorks的数据集成支持离线同步、实时同步以及离线实时一体化的全增量同步。其中:
离线同步场景下,支持设置离线同步任务的调度周期。
支持关系型数据库、数仓、非关系型数据库、文件存储、消息队列等50多种不同异构数据源之间的数据同步。
支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通。
支持安全控制与运维监控,保障数据同步的安全、可控。
核心技术与架构
引擎架构:采用星形引擎架构,数据源接入数据集成后,即可与其他各类型数据源组成同步链路进行数据同步。当前支持的数据源请参见支持的数据源及同步方案。

数据集成资源组与网络连通:进行数据同步前,通过合适的网络连通方案将数据源和资源组间的网络连通。当前仅支持使用Serverless资源组(推荐)和旧版独享数据集成资源组运行数据集成任务,网络连通方案详情请参见网络连通方案。

适用场景
DataWorks数据集成适用于数据入湖入仓、分库分表、实时数据归档、云间数据流转等数据传输场景。
数据开发与运维中心:数据加工
DataWorks的数据开发(DataStudio)是数据加工的开发平台,运维中心是智能运维平台,基于这两个功能模块,您可在DataWorks上规范、高效地构建和运维数据开发工作流。
功能概述
DataWorks的数据开发的亮点功能如下:
DataStudio支持MaxCompute、E-MapReduce、CDH、Hologres、AnalyticDB、ClickHouse等多种计算引擎,支持在统一的平台上进行各类引擎任务的开发、测试、发布和运维等操作。
DataStudio支持智能编辑器、可视化依赖编排,调度能力经过阿里集团内调度任务、复杂业务依赖的反复验证。
DataStudio提供隔离的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控、操作审计等配套功能,帮助企业规范地完成数据开发。
运维中心支持数据时效性保障、任务诊断、影响分析、自动运维、移动运维等功能。
核心技术与架构
高效、规范的开发流程
说明DataWorks提供标准模式的工作空间,可隔离开发环境与生产环境,标准模式的详细介绍可参见工作空间模式区别。
可视化的开发界面:支持通过拖拉拽的方式构建任务流程,在统一的界面进行数据开发和调度配置。

任务监控与定位处理
数据建模:智能数据建模
智能数据建模是阿里云DataWorks自主研发的智能数据建模产品,沉淀了阿里巴巴十多年来数仓建模方法论的最佳实践,包含数仓规划、数据标准、维度建模及数据指标四大模块,帮助企业在搭建数据中台、数据集市建设过程中提升建模及逆向建模的能力,并通过数据建模快速构建企业数据资产。
功能概述
智能数据建模产品包含数仓规划、数据标准、维度建模、数据指标四大模块。
数仓规划:数仓规划支持数仓分层、数据域、数据集市等的规划,支持设置模型设计空间,不同部门可共享一套数据标准和数据模型。
数据标准:数据标准字段标准、标准代码、度量单位、命名词典的定义,支持标准代码自动生成质量规则,落标检查不再难。
维度建模:维度建模支持逆向建模,解决现有数仓的建模冷启动难题,支持可视化数仓维度建模,支持通过Excel文件导入模型和通过FML(一种类SQL的DSL)快速构建模型,支持与数据开发DataStudio无缝打通,自动生成ETL代码。
数据指标:数据指标支持原子指标、派生指标的定义与构建,与维度建模无缝打通,可根据原子指标和不同维度批量创建派生指标。
核心技术与架构
适用场景
DataWorks智能建模可助力企业构建自身建模能力,挖掘企业的数据资产价值,例如:
海量数据的标准化管理
企业业务越庞大数据结构就越复杂,企业数据量会随着企业业务的快速发展而迅速增长,如何结构化有序地管理和存储数据是每个企业都将面临的一个挑战。
业务数据互联互通,打破信息壁垒
公司内部各业务、各部门之间数据独立自主形成了数据孤岛,导致决策层无法清晰、快速地了解公司各类数据情况。如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。
数据标准整合,统一灵活对接
同一数据不同描述,企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构,实现灵活对接上下游业务,是标准化管理的核心重点之一。
数据价值最大化,企业利润最大化
在最大程度上用好企业各类数据,使企业数据价值最大化,为企业提供更高效的数据服务。
数据分析:即时快速分析
数据分析基于“人人都是数据分析师”的目标,旨在为更多非专业数据开发人员,如数据分析、产品、运营等工作人员提供更加简洁高效的取数、用数工具,提升大家日常取数分析效率。
功能概述
数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。
适用场景
适合更多非专业数据开发人员,如数据分析、产品、运营等工作人员进行高效、海量、流动、安全地数据分析工作。
海量:借助计算引擎的能力,可以高效分析全量、海量的数据。
流动:在线数据分析可以从不同业务系统的数据库获取数据进行分析。DataWorks数据分析支持导出数据为MaxCompute表,或分享结果数据至指定成员,并赋予其权限。数据可以在不同的系统和人员之间流动。
安全:所有SQL查询、SQL结果下载等功能的操作都可以接入安全审计。
数据质量:全流程的质量监控
DataWorks的全流程数据质量监控功能为您提供30多种预设表级别、字段级别和自定义的监控模板。数据质量帮助您第一时间感知到源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。
ETL是抽取、转换和加载源端数据至目的端的过程。
数据质量以数据集(DataSet)为监控对象,支持监控MaxCompute等多种引擎数据表。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量进行分析和定级。详情请参见数据质量。
数据质量为您解决以下问题:
数据库频繁变更问题。
业务频繁变化问题。
数据定义问题。
业务系统的脏数据问题。
系统交互导致质量问题。
数据订正引发的问题。
数据仓库自身导致的质量问题。
数据地图:统一管理,跟踪血缘
DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。数据地图以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
数据服务:低成本快速发布API
DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。
功能概述
作为数据仓库与上层应用系统间的“桥梁”,DataWorks数据服务为企业搭建统一的服务总线,帮助企业统一创建及管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”,加速数据的流动和共享。
数据服务支持通过零代码或自助SQL的双模式,将各类数据源下的数据表生成数据API,同时支持函数计算来辅助加工API的请求参数及返回结果。
数据服务采用Serverless架构,用户无需关心运行环境等基础设施,即可将API服务一键发布至API网关。
核心技术与架构
数据服务采用Serverless架构,您只需要关注API本身的查询逻辑,无需关心运行环境等基础设施,数据服务会为您准备好计算资源,并支持弹性扩展,零运维成本。
开放平台:能力全面开放
DataWorks开放平台是DataWorks对外提供数据和能力的开放通道。DataWorks开放平台提供开放API(OpenAPI)、开放事件(OpenEvent)、扩展程序(Extensions)的能力,可以帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程管控、数据治理和运维,及时响应应用系统对接DataWorks的业务状态变化。
功能概述
DataWorks开放平台提供开放API(OpenAPI)、开放事件(OpenEvent)、扩展程序(Extensions)等能力。
开放API(OpenAPI):通过OpenAPI可以实现您的自有应用与DataWorks的深度集成,例如实现批量创建任务、发布任务、运维任务等,提升您的大数据处理效率,减少人工操作成本。
关于OpenAPI功能,具体请参见开放API(OpenAPI)。
开放事件(OpenEvent):通过OpenEvent可以允许您订阅DataWorks中的系统事件,实时获取并响应事件变化,例如订阅表变更事件实现对核心表的实时监控,订阅任务变更事件实现自定义实时任务监控大屏。
关于开放事件功能,具体请参见开放事件。
扩展程序(Extensions):Extensions则是将OpenAPI和OpenEvent有机结合起来的服务级插件,通过Extensions允许您对DataWorks中的流程控制进行自定义,例如您可以自定义任务发布管控插件,从而对不符合规范和要求的任务进行拦截。
关于扩展程序功能,具体请参见扩展程序。
适用场景
DataWorks开放平台提供了全面的开放能力,可以实现深度的系统集成、自动化操作、流程定义、业务监控等,欢迎广大用户及合作伙伴,基于DataWorks的开放平台来实现行业化、场景化的数据应用和插件。
迁移助手与迁云服务
DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks,支持作业跨云、跨Region、跨账号迁移,实现DataWorks作业快速克隆部署,同时DataWorks团队联合大数据专家服务团队,上线迁云服务,帮助您快速实现数据与任务的上云。
功能概述
迁移助手与迁云服务主要功能包括:
任务上云:实现将开源调度引擎的作业搬迁至DataWorks上。
DataWorks迁移:实现DataWorks体系内的开发成果互相迁移。
适用场景
主要适用于:
任务上云:开源调度引擎的作业搬迁至DataWorks上。
备份任务:用户可通过迁移助手定期备份任务代码,减少误删项目带来的损失。
业务快速复制:用户可抽象出通用业务,通过迁移助手导出导入的方式快速复制。
快速创建测试环境:通过迁移助手全量复制业务代码,只需修改生产数据库的数据输入为测试数据,可快速搭建测试环境。
跨云开发:支持公共云的DataWorks和私有云的DataWorks之间进行互导,达到协同开发。