大数据处理的基础知识-大数据处理的基础知识文档介绍内容-阿里云

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

应用场景

应用场景 1.实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接...大数据实时化数仓是大数据的基础，实时化的数仓能够让BI、报表、推荐（用户标签产出）等多种业务收益，大数据系统总体向实时化迈进。

查询流程和执行计划

Executor节点将数据处理的最终结果返回到客户端，或者写入 AnalyticDB MySQL版集群的内部表以及其它外部存储系统（如OSS）中。执行计划相关概念了解以下概念能帮助您更好地分析 AnalyticDB MySQL版的执行计划（即物理执行计划）：Stage ...

算子

AnalyticDB for MySQL 中的一个算子负责完成一个基本的数据处理逻辑，合理地组合算子、优化算子的顺序和执行方式，可以提升数据的处理效率。本文介绍 AnalyticDB for MySQL 中的常用算子及算子所对应的属性。背景信息 AnalyticDB MySQL版 ...

MaxFrame概述

MaxFrame可直接使用MaxCompute海量弹性计算资源，并支持自动分布式、并行处理，大幅缩短数据处理的时间。更便捷的开发体验 MaxFrame已与MaxCompute Notebook、DataWorks集成，无需配置环境即可直接使用；同时MaxFrame也支持在用户本地环境...

功能更新动态（2022年之前）

华北2（北京）、华东1（杭州）计费说明 2021年08月24日华南1（深圳）2021年08月26日华东2（上海）系统将依据您选择的数据处理单元规格分配不同的默认调度资源，选购的规格越高，分配的调度资源越多，可以支持的任务并发数越大，研发效率...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

功能简介

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、瓦片、倾斜摄影等...支持查看数据处理任务详情，包括任务的基本信息、处理的数据、数据坐标位置、结果数据、参数设置和任务执行状态。支持查看数据处理任务的运行属性和运行日志。

空间数据（邀测中）

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、倾斜摄影等多种...支持查看数据处理任务详情，包括任务的基本信息、处理的数据、数据坐标位置、结果数据、参数设置和任务执行状态。支持查看数据处理任务的运行属性和运行日志。

代码智能推荐

该功能可以利用AI模型帮助用户生成组件数据处理的代码。用户可以在对话框中描述数据处理的需求，并支持对推荐的代码内容进行修改。前提条件已登录DataV控制台已进入画布编辑器页面操作步骤在当前数据看板中随机添加一个组件（例如：...

查看资源使用情况-半托管

资源统计项目统计口径描述 数据处理单元同步&集成任务：每3个离线任务（数据同步任务+数据集成任务数）向上取整计算1个数据处理单元。计算任务：每1个离线计算任务计算1个数据处理单元。维度逻辑表：每1个维度逻辑表计算1个数据处理单元...

2024年

新说明 ECS资源复用版是MaxCompute按量付费类型中的一种实例规格，旨在将ECS闲置实例转换为可用的MaxCompute计算资源，该方式可以充分利用已有的计算资源，而不需要额外购买新的MaxCompute计算资源，从而在满足大数据处理需求的同时，提高...

LogHub（SLS）实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或单击手工构造数据按钮自定义输入数据，再单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点对输入数据处理异常，或产生脏数据时，也会反馈出异常信息，能够...

Iceberg概述

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

Oracle同步至Tablestore

目前提供5种数据处理方式，您可根据需要做顺序编排，在任务运行时会按照编排的数据处理先后顺序执行数据处理，5种数据处理方式包括：数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值。每完成一个数据处理节点配置，可以单击右...

数据集成概述

背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优（例如容错，限速，并发）等。...

查看资源使用情况-全托管

资源统计项目统计口径描述 数据处理单元同步&集成任务：每3个离线任务（数据同步任务+数据集成任务数）向上取整计算1个数据处理单元；其中，前200个集成同步任务免费。计算任务：每1个离线计算任务或实时计算任务计算1个数据处理单元。...

引擎简介

产品优势流引擎专注产品的云原生、高性能和易用性，致力于降低海量实时数据处理的使用门槛和成本，侧重于业务的实现而非复杂的基础设施维护。同时，流引擎也能够对现有的系统进行降本增效。实时性：支持秒级别的实时数据处理。易用性支持...

使用场景

业务流程自动化结合DMS任务编排的调度和依赖管理功能，可以实现业务流程的自动化处理，提高工作效率和数据处理的准确性。数据治理与数据管控 DMS任务编排提供了数据源的配置和管理功能，支持对数据源进行统一管理和控制，保证数据的安全性...

Kafka单表实时入湖OSS（HUDI）

目前提供5种数据处理方式，您可根据需要做顺序编排，在任务运行时会按照编排的数据处理先后顺序执行数据处理，5种数据处理方式包括：数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值。每完成一个数据处理节点配置，可以单击右...

数据标准概述

通过规范约束标准代码、度量单位、字段标准、命名词典，来保障后续建模与应用过程中数据处理的一致性，从源头上保障数据的标准化生产，节约后续数据应用和处理的成本。应用场景 DataWorks的数据标准包含字段标准、标准代码、度量单位、...

Kafka实时ETL同步至Hologres

目前提供5种数据处理方式，您可根据需要做顺序编排，在任务运行时会按照编排的数据处理先后顺序执行数据处理，5种数据处理方式包括：数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值。每完成一个数据处理节点配置，可以单击右...

应用场景

数据传输服务DTS（Data Transmission Service）支持数据迁移、数据订阅和数据实时同步功能，帮助您实现多种典型应用场景。不停机迁移数据库传输方式：数据迁移为了保证数据的一致性，传统的迁移过程需要您在迁移数据时停止向源数据库写入...

什么是DataWorks

阿里云上发展历程 2015年DataWorks正式上云，将多年沉淀的大数据建设方法论产品化输出，服务阿里云上客户，通过不断迭代的产品能力，DataWorks正在与各行各业的客户与合作伙伴一起，通过全链路数据治理，管得好数据、用得好数据，让数据从...

DataX同步数据

在 数据处理 页签，单击 datax.json 资源的操作列下的图标。在发布对话框，填写发布名称或备注信息后，单击确定，即可将资源文件发布至生产环境。单击左侧导航栏的发布记录列表。在发布记录列表页面，查看资源文件的发布状态为 ...

DataX同步数据

在 数据处理 页签，单击 datax.json 资源的操作列下的图标。在发布对话框，填写发布名称或备注信息后，单击确定，即可将资源文件发布至生产环境。单击左侧导航栏的发布记录列表。在发布记录列表页面，查看资源文件的发布状态为 ...

概述

AnalyticDB MySQL Spark全密态计算引擎...不同的计算引擎对数据处理的精度会有差别，如果您在使用Spark密态计算引擎时遇到问题，请提交工单联系技术支持。相关文档基础版Spark全密态计算引擎使用示例高性能版Spark全密态计算引擎使用示例

节点类型说明

本文按照节点离线、在线和流式的分类，分别介绍各节点类型对应能处理的数据类型以及运行引擎。计算类节点计算类节点分为离线类、在线和流式类节点主要用于处理各种不同的数据。节点分类节点说明离线节点更多详细信息，请参见离线类...

构建数据仓库

方案优势：阿里巴巴大数据最佳实践，高性能、低成本、Serverless服务，免运维、全托管模式，让企业的大数据研发人员更聚焦在业务数据的开发、生产、治理。产品组合：MaxCompute+Flink+DataWorks。场景说明用户数据来源丰富，包括来自云端...

新建数据处理任务

相关任务任务说明查看任务详情在倾斜数据处理 页面，单击目标任务操作列的详情，即可查看任务的基本信息、处理的数据、数据坐标位置、结果数据、参数设置和任务执行状态。删除任务在倾斜数据处理 页面，单击目标任务操作列的 ...

场景管理器

动作动作说明请求场景管理器重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如场景管理器配置了API数据源为 https://api.test ，传到请求场景管理器动作的数据为 { id:'1'}，则最终请求接口为 ...

Slowly Changing Dimension

保存离线的基础表，每个业务时刻的增量数据独立保存，在查询数据时合并基础表和增量表。查询性能差。其中按T保留全量数据的解决方案如下图所示。为了解决上述两个解决方案存在的问题，阿里云E-MapReduce团队基于Delta Lake提供了G-SCD的...

功能特性

支持多种任务类型任务类型包括数据迁移、数据同步、数据加工等，满足不同的数据处理需求。支持任务调度的管理和监控可设置任务的调度策略，包括定时调度、触发条件调度等，保证准时执行任务。支持任务之间的依赖关系配置可以设置任务的...

装饰条

请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 https://api.test?id=1 。移动将组件...

安全基线检查

策略名称说明日志监控审计 数据处理的全生命周期应具备记录和监控能力，确保数据处理过程可审计、可追溯。资产应开启日志审计或日志存储等功能。该策略检测数据库是否开启了安全日志审计、日志存储等功能。身份权限管理数据的访问和使用...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台，提供企业级数据资产构建能力和一致性使用体验，助力客户快速构建数据智能平台，实现数据资源统一管理，挖掘潜在规律，优化业务决策，让大数据真正的驱动客户业务。...

基本散点图（v4.0及以上版本）

本文介绍基本散点图的图表样式和配置面板的功能。重要本文介绍v4.0及以上版本的基本散点图的配置项，如需查看v3.0以下版本或者v3.x版本，请参见散点图（v3.0以下版本）或散点图（v3.x版本）。图表样式基本散点图是使用散点来展示数据...

基本折线图（v4.0及以上版本）

基本折线图是折线图的一种，与双轴折线图相比，基本折线图的一个类目只对应一个值，主要通过多系列数据配置的方式，展示同一类目下不同数据的变化，能够以折线和区域相结合的方式，智能地展示多维的数据变化趋势。本文介绍基本折线图各配置...

装饰条

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如装饰条配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

iframe

动作动作说明请求数据接口重新请求服务端数据，上游数据处理节点或图层节点抛出的数据将作为参数。例如iframe配置了API数据源为 https://api.test ，传到请求数据接口动作的数据为 { id:'1'}，则最终请求接口为 ...

大数据处理的基础知识

新品推荐