什么是DataWorks

更新时间: 2025-09-02 15:14:00

DataWorks是一站式智能大数据开发治理平台,深度适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和AI计算服务,为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、大数据AI一体化开发、数据分析与主动式数据资产治理服务,帮助企业进行全生命周期数据管理。自2009年以来,DataWorks以阿里巴巴集团大数据建设方法论为基础,不断沉淀数据治理最佳实践,现已广泛应用于包括政务、金融、零售、互联网、汽车、制造等众多行业,数以万计的客户信赖并选择DataWorks进行数字化升级和价值创造。

视频介绍

核心能力

DataWorks 致力于为数据开发者、数据分析师及数据资产管理者,提供一个贯穿数据全生命周期的一站式云研发平台。其核心能力旨在帮助您真正实现数据业务化、业务数据化,具体如下:

核心模块

主要能力

智能数据建模

帮助企业系统化地规划、设计和管理数据仓库,确保数据资产的规范、可复用与高质量。

全域数据集成

支持复杂网络环境(云上、本地IDC)和丰富数据源之间的数据传输,实现实时、离线、全增量的全场景数据同步。

高效数据生产

提供在线的批处理、流处理和机器学习任务开发环境,支持SQL、Spark、Python等多种语言,并具备强大的任务调度与依赖配置能力。

主动数据治理

包含数据质量、数据地图、数据资产管理等功能,帮助您定义质量规则、探查数据血缘、盘点和管理数据资产。

全面数据安全

提供数据脱敏、权限管控、安全审计等能力,保障数据在整个生命周期中的合规与安全。

数据分析服务

提供SQL查询、智能数据洞察等工具支持交互式分析与业务洞察,也支持将数据零代码生成为高性能API,实现与业务应用的无缝集成。

产品架构

DataWorks十多年沉淀数百项核心能力,通过智能数据建模全域数据集成高效数据生产主动数据治理全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。

image

产品优势

功能健全,性能卓越

作为一站式全域数据平台,DataWorks 的能力覆盖了从数据集成、开发、治理到服务的全生命周期。我们具备处理海量数据的卓越性能,能够支撑每日PB级别的数据同步和千万级别的复杂任务调度,满足最严苛的企业级数据处理需求。

智能易用,轻松上手

DataWorks 提供全图形化的操作界面和开放灵活的Web IDE,支持SQL、Python等多种主流开发语言。同时内置强大的 Copilot 智能助手,能够辅助代码生成、智能问答和数据查找,让新手也能在1小时内快速上手。这一易用性已在阿里巴巴数千名运营人员的日常工作中得到验证。

降本增效,开箱即用

DataWorks 采用云原生、全托管的架构,为您提供开箱即用的数据开发与治理能力。相比于自研平台或自行搭建开源工具,DataWorks 能帮您有效降低平台研发和运维的巨大成本,将宝贵的研发资源从繁重的底层维护中解放出来,让您能够更专注于业务创新本身。

安全稳定,值得信赖

DataWorks 提供金融级别的数据安全保障,通过严格的租户隔离和细粒度的权限控制体系,确保您的数据资产安全合规。同时,我们的平台历经阿里巴巴“双11”等流量洪峰的严苛考验,其稳定性与可靠性已得到充分证明,值得您的信赖。

受众和典型客户

  • 技术人员:如数据工程师、算法工程师,进行核心的数据开发和建模工作。

  • 业务人员:如运营、BI分析师,进行自助式的数据查询和分析。

  • 管理人员:如数据资产管理员、数据安全负责人,进行数据治理与合规管控。

DataWorks客户覆盖政务、金融、零售、互联网、汽车、制造等各行业各领域,典型客户如下:

  • 国家电网大数据中心:通过DataWorks实现总部+27家省(市)公司PB级数据的统一管理,通过全链路数据中台的治理与监测运营体系,加快电网整体数字化转型升级。

  • 世界500强亿滋中国:通过DataWorks智能数据建模进行全链路的数据模型治理,极大提升数据中台的自服务能⼒,让企业数据决策实现下放,释放新零售的数字化力量。

  • 上市公司创梦天地:基于开源的EMR引擎,用DataWorks替换自研调度系统,企业内部的技术人员可以更加专注业务,助力游戏行业的数据化运营。

更多客户案例请参见客户案例章节。

开始 DataWorks 之旅

产品开通

重要

当前DataWorks仅支持在PC端Chrome浏览器69以上版本使用。

个人用户或者新用户推荐如下配置开通试用产品。对于大多数企业级用户,我们推荐从专业版开始,它覆盖了绝大部分数据开发与治理的核心功能。

购买前建议阅读计费简介购买指DataWorks版本服务计费说明
  • 推荐配置基础版软件 + 按量付费Serverless资源组。

    image
  • 推荐原因:

    • 零门槛启动:基础版软件完全免费,让您可以无成本地学习和使用DataWorks所有核心开发功能。

      Serverless资源组针对新用户提供一定的免费试用额度。
    • 成本可控:按量付费资源组不使用不计费。在您进行少量测试和开发时,费用较低,完美匹配学习和探索阶段的需求。

学习路径

您可以通过DataWorks文档首页的学习路径,快速了解DataWorks的相关概念、基础操作及进阶操作等内容。1

产品支持

您需要先单击申请链接加入“阿里云大数据AI平台”交流群,再扫描下方二维码加入DataWorks产品钉钉交流群,进行售前售后咨询,咨询可直接@智能机器人,值班时间段内也可直接联系值班人员。技术支持二维码

深入了解 DataWorks

DataWorks 发展之路

阿里巴巴集团内发展历程

从2009年产品立项开始,DataWorks与阿里巴巴业务共同发展,结合MaxCompute、Hologres等大数据计算引擎的能力,跨越多个技术阶段,支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内DataWorks每天活跃用户数超过5万人,平均每3个人就有1个人使用DataWorks,支持300多个数据应用,服务100多个阿里巴巴集团事业部

发展阶段 (年份)

阶段主题

业务发展

平台发展

第一阶段 (2012)

业务百花齐放,发现数据价值

多个业务团队并行发展,如1688、AliExpress、淘宝、一淘等。

各种数据平台并存,支持数字化转型:

  • Oracle之巅,亚洲最大集群。

  • 云梯1 (Hadoop) 达到4000台,服务多个BU的多个集群。

  • 大淘宝Hadoop统一调度工具 - 天网 (DataWorks前身)。

  • 云梯2 (ODPS, 现MaxCompute) 启动研发,蚂蚁小微贷款“牧羊犬”业务上线。

第二阶段 (2015)

业务垂直小闭环,数据孤岛显现

业务垂直发展:

  • 2013年:创立菜鸟,启动“all-in无线”战略。

  • 2014年:投资高德,与银泰合资,成立阿里旅行。

  • 2015年:推出钉钉/零售通,成立口碑,控股阿里健康。

  • 2015年启动“中台战略”:构建“大中台,小前台”的组织和业务机制,以应对数据孤岛问题。

启动登月计划,统一数据平台:

  • 云梯1 (Hadoop) 遇到5000台的开源瓶颈。

  • 云梯2通过5K项目证明其跨入5000台的能力。

  • DataWorks通过“火鸟项目”支撑集团统一数据交换平台。

  • 将阿里所有的数据整合到云梯2,打造集团统一数据平台。

第三阶段 (2018)

数据中台支撑业务可持续发展

数据驱动业务发展:

  • 小二(运营人员)覆盖用户生命周期的精细化运营策略。

  • 实现个性化的智能营销。

  • “生意参谋”探索数据业务化。

  • 业务走向实时化。

数据中台建设 + 资产化:

  • 数据平台全面支撑数据中台建设。

  • DataWorks 构建了大规模数据开发与治理的一站式能力。

  • MaxCompute 支持10万台集群,服务100+集团BU、20万+阿里员工的日常运营。

第四阶段 (2021)

云上数据中台与业务伴生

全面云原生化,业务与数据深度融合:

  • 双11核心系统100%上云,阿里云抗住流量洪峰(每秒53.8万笔)。

  • 数据中台覆盖集团所有BU,运营小二可及时发现并分析问题,实现实时决策。

  • 支撑短视频、直播等新业务的出现。

数据中台服务业务,形成“正循环”:

  • DataWorks建设的数据中台全面服务业务,支持集团内300+数据应用。

  • MaxCompute 智能数仓让“双11”成为日常。

  • MaxCompute 湖仓一体逐步成为下一代数据平台架构。

  • 平台进行全链路数据治理,实现以10%的成本增长支撑60%的业务增速。

阿里云上发展历程

2015年DataWorks正式上云,将多年沉淀的大数据建设方法论产品化输出,服务阿里云上客户,通过不断迭代的产品能力,DataWorks正在与各行各业的客户与合作伙伴一起,通过全链路数据治理,管得好数据、用得好数据,让数据从低质低效向高质高效流动。

年份

里程碑事件

关键描述

2009

DataWorks 在阿里集团立项

自研数据同步引擎DataX及任务调度引擎,服务超大规模Hadoop集群。

2013

启动“登月计划”,技术栈转型

项目代号:登月计划。集团启动平台统一计划,全面从Hadoop转向MaxCompute,DataWorks全面服务MaxCompute。

2016

DataWorks 正式上云

项目代号:数加平台。作为“数加平台”核心产品,进入公共云市场,开始服务企业和政务客户。

2017

走向国际化

完成阿里云12+国内外地域部署,开始服务全球客户。

2018

DataWorks V2.0 发布

形成包含数据集成-数据开发-数据服务-应用开发的一站式大数据智能云研发平台。

2019

DataWorks V3.0 发布

支持多种计算引擎任务混合编排,构建全新数据综合治理体系。

2020

全面开放,构建生态

全新推出开放平台,构建合作伙伴生态;入围Forrester全球云数仓厂商评测卓越表现者象限。

2022

数据治理能力全新升级

推出“数据建模与数据治理中心”产品;在中国数据治理相关市场份额获得第一(IDC)。

2024

拥抱 AIGC,发布 Data+AI 新能力

核心发布:Copilot。全新升级数据开发与分析能力,发布Copilot产品,基于OpenLake数据湖仓架构,提供Data+AI全链路开发与治理能力。

DataWorks 获奖经历

更多相关阅读

上一篇: 产品概述 下一篇: 基本概念
阿里云首页 大数据开发治理平台 DataWorks 相关技术圈