DataWorks模块使用说明

本文将为您概要介绍DataWorks主要子模块的功能及基本使用场景。

使用流程与主要子模块

使用流程

DataWorks为您提供从端到端的一站式数据开发治理平台,数据处理流程主要包括以下几个阶段。

image

DataWorks子模块说明

功能目录

子模块

功能说明

数据集成

数据集成

数据集成提供全面的数据同步解决方案,支持离线实时全增量同步。主要特点包括:

  • 灵活调度:支持设定离线同步任务的调度周期。

  • 广泛兼容:兼容50多种异构数据源,如关系型数据库、数据仓库、NoSQL、文件存储和消息队列。

  • 网络连通性:适用于复杂网络环境,确保公网、IDC和VPC内的数据源都能稳定连接。

  • 安全监控:集成安全控制与运维监控,保障数据同步的安全性和可靠性。

数据建模与开发

数据建模

数据建模产品包含数仓规划数据标准维度建模数据指标四大产品模块。

  • 数仓规划:支持数仓分层、数据域和数据集市的规划,提供模型设计空间设置,确保不同部门可以共享统一的数据标准和模型。

  • 数据标准:定义字段标准、标准代码、度量单位和命名词典,支持自动生成质量规则,简化落标检查流程。

  • 维度建模:提供逆向建模功能,解决现有数仓建模的冷启动难题。支持可视化建模及通过Excel文件或FML(类SQL的DSL)快速构建模型,与DataStudio无缝集成,自动生成ETL代码。

  • 数据指标:支持原子指标和派生指标的定义与构建,与维度建模无缝对接,能够根据原子指标和不同维度批量创建派生指标。

数据开发

数据开发兼容多种计算引擎,提供智能编辑器可视化工具,并通过独立的开发环境及可靠的管理功能,确保高效的任务管理和规范的数据开发流程。

  • 多引擎支持:DataStudio兼容MaxCompute、EMR、CDH、Hologres、AnalyticDB和ClickHouse等多种计算引擎,允许在统一平台上进行开发、测试、发布和运维操作。

  • 智能开发工具:配备智能编辑器和可视化依赖编排工具,调度能力经过阿里集团内部复杂任务和业务依赖的反复验证,确保高效可靠的任务管理。

  • 隔离环境与规范流程:提供独立的开发和生产环境,结合版本管理、代码评审、冒烟测试、发布管控和操作审计等功能,帮助企业规范化数据开发流程,保障项目质量和安全性。

运维中心

运维中心支持对数据开发发布的周期任务手动任务实时任务进行以下运维操作:

  • 任务运行管理:监控任务运行状态,快速定位并解决问题。

  • 关键指标查看:提供任务运维的关键指标和引擎任务列表,便于全面掌握任务性能。

数据地图

数据地图以数据搜索为基础,提供表使用说明数据类目数据血缘字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

数据分析

SQL查询

SQL查询支持在线SQL分析业务洞察、编辑分享数据。并支持将查询结果保存为图表卡片,快速搭建可视化数据报告便于日常汇报。

数据洞察

数据洞察支持数据探索与可视化,助您理解数据分布、创建及组合数据卡片为报告,并可将结果生成长图进行分享。

数据治理

数据质量

数据质量功能支持对常见大数据存储(如MaxCompute、E-MapReduce、Hologres、AnalyticDB PostgreSQL、AnalyticDB MySQL和CDH等)进行全面的质量校验。它从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度配置监控规则,并可将这些规则与调度节点关联,在任务完成后自动触发校验。这有助于第一时间发现并处理问题数据,按需设置规则的严格程度以控制任务是否失败退出,从而防止脏数据的影响扩大,有效降低数据恢复的时间和成本。

数据资产治理

数据资产治理功能根据预先配置的治理计划,自动识别平台在数据存储、任务计算、代码开发、数据质量和安全等方面的问题,并通过健康评分进行量化评估。它从全局、工作空间和个人等多个视角,以治理报告和排行榜的形式呈现治理成果,帮助您高效达成治理目标。此外,还提供业务资产管理、资产分析、任务资源消耗明细和费用预估等功能,使您能够全面掌握各类资源的使用情况,优化资源配置。

数据服务

数据服务

数据服务为企业搭建统一的服务总线,帮助企业统一创建及管理对内、对外的API服务,解决数仓、数据库与数据应用间的“最后一公里”,加速数据的流动和共享。

  • 双模式数据API生成:支持零代码和自助SQL两种模式,轻松将各类数据源中的数据表转换为数据API,并通过函数计算加工API请求参数及返回结果。

  • Serverless架构:采用无服务器架构,用户无需关注运行环境等基础设施,即可一键将API服务发布至API网关。

其他

安全中心

安全中心核心功能如下:

  • 数据权限管理:提供精细化的权限申请、审批和审计功能,实现最小化权限管控。您可轻松跟踪权限审批流程的进展,确保及时处理。

  • 数据内容安全管理:通过数据分级分类、敏感数据识别、访问审计和数据源追溯等功能,快速识别并处理存在安全隐患的数据,保障数据内容的安全可靠。

  • 安全诊断与最佳实践:提供平台安全诊断和数据使用诊断功能,在符合安全规范的前提下,帮助您识别和解决各类安全问题,确保业务在最优安全环境中高效运行。

数据保护伞

数据保护伞为您提供敏感数据规则配置识别敏感数据查看识别结果处理敏感数据等管控流程,帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据,保障数据安全。

迁移助手

迁移助手支持迁移周期任务手动任务资源函数数据源表元数据临时查询组件等对象。您可以根据业务需求,选择全量导出、增量导出或自选导出等方式导出DataWorks中的开发成果。