大数据平台设计文档-大数据平台设计文档文档介绍内容-阿里云

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户...，赋能技术团队具备大数据平台建设、架构设计、AI算法建模以及运维保障能力...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

调度设计文档

节点ID 节点名称用途数据输入表数据产出表调度周期 320170257 workshop_start 虚拟节点，用于管理下游节点 Null Null 日 320170260 MySQL数据同步拉取MySQL数据源数据 ods_user_info_d ods_user_info_d 日 320170260 FTP数据同步拉取...

划分数据域

划分数据域通常，您需要阅读各源系统的设计文档、数据字典和数据模型设计文档，研究逆向导出的物理数据模型。进而，可以进行跨源的主题域合并，跨源梳理出整个企业的数据域。数据域是指面向业务分析，将业务过程或者维度进行抽象的集合。...

设计阶段

设计完毕后，最终将产出供开发人员参照实施开发的ETL设计文档、数据探查文档、调度设计文档，为需求的有效实现打下坚实基础。设计阶段的流程包括以下步骤：数据探查数据探查的目的是了解数据的形态，找到潜在问题与风险。数据探查是决定...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

划分数据域

通常，您需要阅读各源系统的设计文档、数据字典和数据模型，研究逆向导出的物理数据模型。进而，可以进行跨源的主题域合并，跨源梳理出整个企业的数据域。数据域是指面向业务分析，将业务过程或者维度进行抽象的集合。为保障整个体系的生命...

什么是Databricks数据洞察

Databricks数据洞察（简称DDI）是基于Apache Spark的全托管大数据分析平台。产品内核引擎使用Databricks Runtime，并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云Spark服务，您无需关心集群服务，只需专注在Spark作业的开发上...

什么是数据资源平台

阿里云数据资源平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据标准、数据建模、数据加工、质量评估、业务模型构建、资产管理、数据服务等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据...

快速体验

数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据地图（必选）、大数据开发治理平台 DataWorks数据保护伞（必选），基础版DataWorks已包含。数据展示：智能分析套件Quick BI（必选），您可根据...

应用场景

建立数据平台 得益于其开放式架构设计，EMR Serverless Spark极大地简化并提升了在数据湖环境中对结构化和非结构化数据进行高效分析处理的能力。EMR Serverless Spark不仅集成了任务调度系统，使得您能够便捷地构建与管理数据ETL流程，轻松...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

文档修订记录

开放平台概览 2023年4月更新记录时间特性类别描述产品文档 2023.4.23 新增功能数据集成数据集成的MaxCompute同步任务默认使用公共传输资源上传、下载数据至MaxCompute，为满足您业务增长对传输资源的更高要求，MaxCompute推出了独享...

新功能发布记录

OceanBase 数据库之间的数据迁移支持 TiDB 数据库至 OceanBase 数据库 MySQL 租户的结构迁移、全量迁移、增量同步、全量校验和反向增量迁移 TiDB 数据库的数据至 OceanBase 数据库 MySQL 租户支持 PolarDB-X 1.0 数据库至 OceanBase ...

功能发布记录 2022年之前

2021-12 功能名称功能描述发布时间发布地域相关文档数据质量支持选择规则模板来批量配置数据质量规则。DataWorks数据质量支持选择规则模板来批量配置数据质量规则，简化配置难度：支持选择表级规则模板，批量给多张表配置规则。支持...

OceanBase 数据库支持版本

OceanBase 数据库企业版 V4.2.1 OceanBase 数据库企业版 V3.2.4 OceanBase 数据库企业版 V3.2.3 V4.2.1 版本数据库参考文档模式文档简介通用数据库设计规范和约束本文档为您介绍 OceanBase 数据库的对象命名、对象结构设计、字符集、...

2019年

数据模型架构规范、公共规范、ODS层设计规范、CDM公共维度层设计规范、CDM明细层设计规范、CDM汇总层设计规范、MaxCompute数据开发规范 2019-05-06 新增表设计指南。新指南介绍表设计指南。表概述、表设计规范、表设计最佳实践、...

新功能发布记录

功能发布更新 2024年 03月功能名称变更类型功能描述相关文档数据工作站新增支持以文档形式交付查询的数据和数据变化趋势等信息，并支持在交付后使用智能工具解答数据相关问题。使用数据工作站功能可以提高数据交付效率和数据自助...

功能特性

功能集功能功能描述参考文档数据联邦基于Delta Lake或Hudi存储机制实现湖仓一体 MaxCompute基于阿里云DLF、RDS、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。基于Delta Lake或Hudi存储机制实现湖仓一体 Spark访问湖仓一体...

功能发布记录（2022年）

2022.6.14 华东1（杭州），华东2（上海）所有DataWorks用户查看敏感数据血缘（公测）2022-5 功能名称功能描述发布时间发布地域适用客户相关文档数据保护伞风险识别优化功能全新改版（老用户需迁移）。新版风险识别功能内置风险识别...

什么是DataWorks

中国国际大数据产业博览会十佳大数据案例中国信通院：数据集成工具、数据管理工具、数据开发平台、数据脱敏工具、数据分类分级等评测学习路径您可以通过DataWorks文档首页的学习路径，快速了解DataWorks的相关概念、基础操作及进阶操作...

什么是EMR Serverless Spark

EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless ...

DataWorks模块使用说明

使用流程概览：参考文档：数据开发概述子模块：运维中心功能说明：运维中心是一站式大数据运维、监控平台，支持实时查看任务的运行状态，并为异常任务提供智能诊断、重跑等运维操作。它提供智能基线功能，帮助您解决重要任务产出时间不可...

产品优势

全托管的Databricks数据洞察大数据分析平台，可以让您从繁杂的环境运维、内核优化等工作中解脱出来，专注于开发Spark作业本身。本文介绍Databricks数据洞察的产品优势。高效稳定产品内核使用Databricks商业版的Runtime和Delta Lake。与...

Databricks Runtime版本说明

Databricks数据洞察的内核引擎是Databricks Runtime，Databricks Runtime包括Apache Spark，并在此基础上进行了大量的功能和性能优化，可以显著提高大数据分析的可用性、性能和安全性。Databricks Runtime版本与Databricks官方保持一致，...

应用场景

Databricks数据洞察（简称DDI）的核心引擎是Databricks Runtime和Databricks Delta ...实时数仓利用Databricks Delta Lake的ACID事务特性，可以构建云上大数据的实时数仓。icmsDocProps={'productMethod':'created','language':'zh-CN',};

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

数据模型概述

DDM目前支持逻辑模型和物理模型建模，其中物理模型又分为关系型数据模型和非关系型数据模型，支持的大数据引擎为MaxCompute、Hive。说明 Hadoop的MR调优参数属于底层，DDM是数据建模工具，支持设置表、字段等物理属性。

数据标准

数据是由特定的环境产生的，这些环境因素包括生产者、时间、系统等，从而造成了同一个语义的数据，有多种不同的定义方法，给后期进行数据汇集和整合带来障碍。因此，数据处理的前奏就是数据标准化，数据标准作为一个统一的数据共识，在标准...

数据源概述

DataWorks的数据源用于连接不同的数据存储服务。在配置数据集成同步任务之前，您需要首先定义好同步任务的源端和目的端数据源...相关文档数据源配置，详情请参见支持的数据源及同步方案。数据源的权限管理，详情请参见 RAM角色授权模式。

大数据平台 设计文档

新品推荐

大数据平台设计文档