大数据平台功能-大数据平台功能文档介绍内容-阿里云

开放平台概览

功能简介开放API（OpenAPI）DataWorks开放平台的OpenAPI功能为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。您还可以在OpenAPI区域查看...

数据分析：即时快速分析

功能概述数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景适合更多非专业数据开发人员，如数据分析、产品、运营等工作...

功能发布记录 2022年之前

DataWorks控制台的开放平台功能，为您展示OpenAPI的计量报表，方便您查看指定日期OpenAPI的调用详情。2021.02.13 全部地域。DataWorks开放平台OpenAPI报表 2021-01 功能名称功能描述发布时间发布地域相关文档 DataWorks数据集成新增...

数据开发概述

数据开发主要功能数据开发（DataStudio）的主要功能介绍如下。您可参考数据开发相关概念辅助理解。类型描述对象组织及管理 DataWorks数据开发提供的对象组织与管理机制如下：对象组织：提供解决方案>业务流程两级管理模式。...

概述

DataWorks的安全中心，帮助您快速构建平台的数据内容、个人隐私等相关的安全能力，满足企业面向高风险场景的各类安全要求（例如，审计），无需您额外配置即可直接使用该功能。DataWorks的安全中心作为云上大数据体系的安全门户，致力于向您...

开放平台：能力全面开放

DataWorks开放平台是DataWorks对外提供数据和能力的开放通道。DataWorks开放平台提供开放API（OpenAPI）、开放事件（OpenEvent）、扩展程序（Extensions）的能力，可以帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

授权信息

本文为您介绍开源大数据平台 E-MapReduce（EMR）为RAM权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce（EMR）的RAM代码（RamCode）为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

通用数据开发

说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的数据，存储在业务系统所对应的数据库中，包括MySQL、Oracle和RDS等类型。数据收集与存储：您需要同步...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

OpenEvent概述

DataWorks当前支持订阅的事件覆盖了运维中心、DataStudio和数据治理三个功能模块中的事件，详情如下表所示。应用范围所属模块事件细分事件描述与类型事件示例空间级运维中心实例操作事件描述：在运维中心对实例进行冻结、解冻等...

数据服务：低成本快速发布API

DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台，旨在为企业提供全面的数据共享能力，帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述作为数据仓库与上层应用系统间的...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

E-MapReduce本地盘实例大规模数据集测试

大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能，对用户选择合适的大数据平台产品具有重要的参考价值，TPC-DS逐渐成为了业界公认的大数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

JindoData版本说明

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台，在各项能力支持上预设了很多拓展点，例如，在标准模式下，简略来看，节点创建后完成代码开发后，需先提交到开发环境中进行验证，完成后再正式发布到生产环境中，后续每天根据调度...

计费逻辑说明

产品类型功能介绍计费项计费说明计费标准参考智能数据建模智能数据建模是DataWorks自研的建模产品，支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义，帮助您将建模设计产出的维度表、明细表、应用表、汇总表物化...

离线同步能力说明

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...

数据地图：统一管理，跟踪血缘

DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。数据地图以数据搜索为基础，提供表使用说明、数据类目、数据血缘、字段血缘等工具，帮助数据表的使用者和拥有者更好地管理数据、协作开发。

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

功能发布记录（2022年）

英国（伦敦），美国（硅谷），美国（弗吉尼亚），阿联酋（迪拜）所有DataWorks用户数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake，实现基于EMR引擎的数据集成、数据建模、数据开发...

DataWorks各版本详解

专业版基于DataWorks标准版，增加更专业的数据安全功能，同时增强数据治理、数据服务的功能，完善的数据开发与运维功能，提供产品化的数据治理、数据安全解决方案。此版本适合中小型企业使用。企业版基于DataWorks专业版，在该版本上您...

智能监控概述

功能介绍各模块功能介绍如下：功能描述智能基线智能基线能够及时捕捉导致基线上任务无法按时完成的异常情况并提前预警，保障复杂依赖场景下重要数据能在预期时间内顺利产出。创建及管理基线，详情请参见：基线管理。查看基线实例运行...

数据源概述

说明数据同步基于数据源控制任务读写端数据库，您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库或数据仓库的相关信息，以便在同步过程中，可通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。...

功能发布记录（2023年）

2023-12 功能名称功能描述发布时间发布地域使用客户相关文档数据开发（DataStudio）绑定数据源若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发（DataStudio）...

数据开发与运维中心：数据加工

DataWorks的数据开发（DataStudio）是数据加工的开发平台，运维中心是智能运维平台，基于这两个功能模块，您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

函数概述

数据服务支持您编写函数，并将函数关联至API，使得函数可以作为API的过滤器使用，对API的请求参数或返回结果进行加工处理。本文为您介绍函数功能。使用限制您需要购买DataWorks基础版及以上版本，才可以使用过滤器功能。Python函数正在...

EMR Spark功能增强

EMR版本组件版本功能增强 EMR-5.2.1 Spark 3.1.1 支持数据湖格式Delta Lake和Hudi。支持Remote Shuffle Service。支持Livy。优化E-MapReduce控制台上，Spark服务配置页面的 spark-defaults 页签的配置项名称。优化CBO（Cost-Based ...

管理控制台功能概览

功能模块您可通过控制台了解DataWorks各模块的功能及使用流程，并快速进入指定工作空间的数据集成、智能数据建模、数据开发、运维中心、数据质量、数据分析、数据地图、安全中心、数据治理中心、数据服务、管理中心模块执行相关操作。...

功能发布记录（2024年）

您在数据开发和数据分析中执行SQL语句查询数据时，若该数据被识别为敏感数据，平台将会按照脱敏规则进行遮盖、加密等模式的脱敏展示，加强企业数据安全管控。2024.1.25 所有地域所有DataWorks用户数据脱敏能力概述数据保护伞概述数据...

支持Flink可恢复性写入JindoFS或OSS

背景信息可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质，在大数据场景下保证了数据的安全性和一致性。在Flink作业中的用法通用配置为了支持EXACTLY_ONCE语义写入JindoFS或OSS，您需要执行如下配置：打开Flink的检查点...

迁移助手与迁云服务

DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks，支持作业跨云、跨Region、跨账号迁移，实现DataWorks作业快速克隆部署，同时DataWorks团队联合大数据专家服务团队，上线迁云服务，帮助您快速实现数据与任务的上云。功能概述 ...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

管理中心功能概览

例如，在配置数据集成任务前，可先在DataWorks数据源管理页面，配置好需同步的源端和目标端数据库或数据仓库的相关信息，并在同步过程中，通过数据源名称来控制读取和写入的数据库或数据仓库。开源集群在开源集群处，可管理已绑定至...

数据保护伞入门

数据保护伞是一款数据安全管理产品，提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等功能，帮助您快速梳理敏感数据并进行安全管控，保障数据安全。本文示例使用内置规则对 xc_dpe_e2_dev 项目的 phone 数据脱敏，并...

大数据平台功能

新品推荐