构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力,本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。

构建云上大数据仓库

本场景推荐的架构如下。构建云上大数据仓库

  • 适用行业:全行业适用。

  • 方案优势:阿里巴巴大数据最佳实践,高性能、低成本、Serverless服务,免运维、全托管模式,让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。

  • 产品组合:MaxCompute + Flink + DataWorks。

  • 场景说明

    • 用户数据来源丰富,包括来自云端的数据、外部数据源,数据统一沉淀,完成数据清洗、建模。

    • 用户的应用场景复杂,对非结构化的语音、自然语言文本进行语音识别、语义分析、情感分析等,同时融合结构化数据搭建企业级的数据管理平台,并且计算和存储成本最低。

    • 平台支撑多种形式的应用,包括使用机器学习算法进行复杂数据分析、使用BI报表进行图表展现、使用可视化产品进行大屏展示、使用其他自定义的方式消费数据。

构建智能实时数据仓库

本场景推荐的架构如下。实时数仓

  • 适用行业:适用于电商、游戏、社交等互联网行业大规模数据实时查询场景。

  • 方案优势

    • 阿里云实时数仓全套链路与离线数仓无缝打通。

    • 满足一套存储,两种计算(实时计算和离线计算)的高性价比组合。

  • 产品组合:DataHub+实时计算Flink+交互式分析+MaxCompute+DataWorks+Quick BI / DataV

  • 场景说明

    • 数据采集:通过DataWorks(批量)、DataHub(实时)进行统一数据采集接入。

    • 数据开发:基于DataWorks进行数据全链路研发,包括数据集成、数据开发和ETL 、转换及计算等开发,以及数据作业的调度、监控、告警等。DataWorks提供数据开发链路的安全管控的能力,以及基于DataWorks数据服务模块提供统一数据服务API能力。

    • 实时数据:按实际业务需求使用Flink进行实时ETL(可选)、结果入库,使用交互式分析产品构建实时数据仓库、应用集市,并提供海量数据的实时交互查询和分析。

    • 交互式分析:提供实时离线联邦查询。历史离线数据存放于MaxCompute,实时分析数据存放于交互式分析。基于阿里云Quick BI或第三方数据分析工具(如Tableau)执行数据可视化,以及构建各业务板块数据服务门户应用。