大数据全渠道中台系统教程-大数据全渠道中台系统教程文档介绍内容-阿里云

概述

背景信息在大数据生态系统中，Alluxio位于数据驱动框架或应用（例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等）和各种持久化存储系统（例如HDFS和阿里云OSS）之间，使得上层的计算应用可以通过统一的客户端API和...

新零售：特步

解决方案通过 PolarDB-X+RDS的分布式数据库解决方案支撑O2O全渠道业务中台系统上线，通过垂直拆分剥离各业务中心，使不同类型的业务数据可以存储在不同的RDS上，确保资源和访问隔离，从物理上使整个数据库架构具备了扩展性。通过这套架构...

客户案例

基于飞天大数据平台产品DataWorks+MaxCompute大大提高了数据业务的开发效率，构建大润发的数据中台体系。新金融行业：某互联网金融公司湖仓一体案例客户架构如下。客户简介公司的第一代数据湖是基于Hadoop+OSS搭建的，同时引入的数据中台...

大数据AI公共数据集分析

数据查询体验本教程中使用阿里电商数据集（bigdata_public_dataset.commerce.commerce_ali_e_commerce），该数据集来源于天池阿里移动推荐算法挑战赛，拥有100万条脱敏后的行为数据（包括点击、购买、加购、喜欢）。说明 DataWorks为您...

Github实时数据同步与分析

教程简介本教程基于GitHub Archive公开数据集，通过DataWorks将GitHub中的项目、行为等20多种事件类型数据实时采集至Hologres进行分析，同时使用DataV内置模板，快速搭建实时可视化数据大屏，从开发者、项目、编程语言等多个维度了解...

什么是DataWorks

世界500强亿滋中国：通过DataWorks智能数据建模进行全链路的数据模型治理，极大提升数据中台的自服务能⼒，让企业数据决策实现下放，释放新零售的数字化力量。上市公司创梦天地：基于开源的EMR引擎，用DataWorks替换自研调度系统，企业内部...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息（ods_user_info_d）表及OSS中的网站访问日志数据（user_log.txt）文件，通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例，为您介绍如何通过DataWorks数据集成实现异构...

数仓构建流程

本文为您介绍如何基于阿里巴巴OneData方法论最佳实践，使用Dataphin助力企业数据中台的建设与管理，快速构建标准、规范的数据仓库。数仓构建流程下图为使用Dataphin构建数据仓库的基本流程。基本概念在正式学习本教程之前，您需要了解...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

由于全量数据迁移会并发执行INSERT操作，导致目标数据库的表产生碎片，因此全量迁移完成后目标数据库的表存储空间会比源实例的表存储空间大。请确认DTS对数据类型为FLOAT或DOUBLE的列的迁移精度是否符合业务预期。DTS会通过 ROUND(COLUMN,...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能上传与下载 DataWorks的上传与下载模块，提供了便捷的数据上传功能，支持将多种来源（例如，本地文件、OSS文件）的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作，致力于为您...

功能特性

BI工具对接数据传输迁移 MaxCompute提供多种渠道，以便从业务系统或外部数据源写入数据到MaxCompute，或者从MaxCompute写出数据到外部系统或外部数据源。功能集功能功能描述参考文档上传数据 Tunnel（离线）MaxCompute的客户端...

确定需求

在基于Dataphin构建与管理企业数据中台之前，首先需要确定数仓构建的目标与需求，进行全面的业务调研。您需要了解真实的业务需求是什么，以及确定整个业务系统能解决什么问题。业务调研充分的业务调研和需求分析是数据仓库建设的基石，...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移新说明本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移，包括两种使用场景：同云账号内不同Region...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

功能更新动态（2023年）

创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成新增Apache Doris数据源的离线集成。整库迁移任务支持...

公告

显著提升数据治理水平，Dataphin将进一步加强资产治理方向的投入，正式更名为“智能数据建设与治理Dataphin”，希望能够更好的助力企业构建质量可靠、消费便捷、生产安全经济的企业级数据中台。更名公告，请参见 Dataphin更名通知。2020年...

文档更新动态（2022年之前）

新功能网络连通解决方案 2021年08月24日数据服务：支持数据服务模块的数据查询加速、支持的数据源类型和版本拓展为了满足对数据查询速度有要求的业务场景，Dataphin支持为项目添加加速计算源，且完成Dataphin数据源开发后，您可以手动...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

支持的数据库引擎与功能

阿里云数据库 ECS上的自建数据库线下数据库其他云数据库阿里云数据库 ECS上的自建数据库线下数据库其他云数据库数据源类型 MongoDB Redis 支持的版本 4.2、4.0、3.6、3.4、3.2 4.0标准版（主从架构）说明不支持Redis 5.0及以上版本...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

概述

解决方案 T+1全量同步一键建仓是指通过DLA控制台配置数据源（RDS、PolarDB for MySQL、MongoDB数据源、ECS自建数据库数据）和目标OSS数据仓库，系统按照您设定的数据同步时间自动、无缝的帮您把数据源中的数据同步到目标数据仓库OSS中，...

自建MySQL应急恢复

数据库备份DBS 提供自建MySQL应急恢复功能，该功能基于Copy Data Management（CDM）技术，通过开启DBS沙箱，您可以快速创建出应急数据库实例（本文称为沙箱实例），使备份数据快速可用。多个沙箱实例之间的读写不会互相影响，也不会影响源...

产品优势

产品功能全功能涵盖数据传输、开发、生产、治理、安全全领域，每个领域深度覆盖大数据全生命周期，轻松帮助企业应对在搭建数仓、搭建数据中台、数字化转型项目中遇到的难题。支持复杂网络环境、常见数据源的数据同步上云以及实时、历史...

自建MySQL云灾备

数据库备份DBS 提供自建MySQL数据库云灾备功能，该功能基于Copy Data Management（CDM）技术，使用备份数据快速创建RDS MySQL灾备实例，可用于备份上云、云上容灾、恢复演练、开发测试和查询分析等场景。说明有关云灾备技术实现的更多详情...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

应急恢复

首次开启时，系统会拷贝最新的全量备份集至沙箱存储中，并生成可挂载的快照，根据备份数据大小，您可能需要等待5~20分钟。当沙箱实例时间范围显示具体的可用时间范围后，即可开始创建沙箱实例并恢复数据至沙箱实例中。沙箱实例时间范围 ...

统一服务

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”的传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

功能简介

在数据中台建设过程中，搭建核心处理平台，并根据相关标准要求，将源数据或治理后的数据，按照“全面、高效、统筹”的共享原则，“低延时”、“精准化”地传递给用户，方便更多应用消费数据，实现数据价值。协同管控各种组织机构，为智慧化...

受众与核心能力

同时，DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块，为企业业务的数字化转型提供支持。产品受众从事数据开发、算法开发等岗位的技术人员从事销售运营、商业智能分析等岗位的业务人员从事数据安全与合规工作的管理人员...

数据集成概述

说明以业务数据库数据同步到MaxCompute数据仓库为例，当有大量的数据存储在数据库系统里，需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时，数据集成传统方式是通过全量同步或者依赖数据库表中的 modify_time 等字段进行...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

管理数据库资产

在进行数据库审计前，您必须在数据库审计系统中添加要审计的数据库。本文介绍了在数据库审计系统中添加、编辑、删除数据库的具体操作。背景信息关于数据库审计服务支持审计的数据库类型，请参见支持的数据库类型。重要数据库审计仅支持...

高压缩引擎（X-Engine）介绍

随着业务发展，数据库系统中会积累大量访问频率很低甚至为0的数据，这些数据的积累容易导致如下问题：历史数据和最新数据存储在同一数据库系统中，导致磁盘空间不足。大量数据共享数据库系统的内存、缓存空间、磁盘IOPS等，导致性能问题。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

功能简介

AnalyticDB PostgreSQL版的企业数据智能平台是数据资产定义、加工、管理、服务的全流程平台，提供数据同步、数据查询、数据建模、数据开发、质量评估、资产管理等功能，为智能数据应用持续稳定供给全量、标准、干净、智能的数据资源。...

数仓分层

在本教程中，从交易数据系统的数据经过DataWorks数据集成，同步到数据仓库的ODS层。经过数据开发形成事实宽表后，再以商品、地域等为维度进行公共汇总。整体的数据流向如下图所示。其中，ODS层到DIM层的ETL（萃取（Extract）、转置...

大数据全渠道中台系统教程

新品推荐