功能简介 开放API(OpenAPI)DataWorks开放平台的OpenAPI功能为您提供开放API能力,通过开放API实现本地服务和DataWorks服务的交互,提升企业大数据处理效率,减少人工操作和运维工作,降低数据风险和企业成本。您还可以在OpenAPI区域查看...
功能概述 数据分析支持基于个人视角的数据上传、公共数据集、表搜索与收藏、在线SQL取数、SQL文件共享、SQL查询结果下载及用电子表格进行大屏幕数据查看等产品功能。适用场景 适合更多非专业数据开发人员,如数据分析、产品、运营等工作...
DataWorks控制台的 开放平台 功能,为您展示OpenAPI的计量报表,方便您查看指定日期OpenAPI的调用详情。2021.02.13 全部地域。DataWorks开放平台OpenAPI报表 2021-01 功能名称 功能描述 发布时间 发布地域 相关文档 DataWorks数据集成新增...
数据开发主要功能 数据开发(DataStudio)的主要功能介绍如下。您可参考 数据开发相关概念 辅助理解。类型 描述 对象组织及管理 DataWorks数据开发提供的对象组织与管理机制如下:对象组织:提供 解决方案>业务流程 两级管理模式。...
DataWorks的安全中心,帮助您快速构建平台的数据内容、个人隐私等相关的安全能力,满足企业面向高风险场景的各类安全要求(例如,审计),无需您额外配置即可直接使用该功能。DataWorks的安全中心作为云上大数据体系的安全门户,致力于向您...
DataWorks开放平台是DataWorks对外提供数据和能力的开放通道。DataWorks开放平台提供开放API(OpenAPI)、开放事件(OpenEvent)、扩展程序(Extensions)的能力,可以帮助您快速实现各类应用系统对接DataWorks、方便快捷的进行数据流程...
本文为您介绍典型场景下,使用开源大数据平台E-MapReduce时通常会使用到的其他云服务。云服务名称 说明 云服务器ECS 使用云服务器ECS(Elastic Compute Service)作为集群的节点,每个ECS实例集群中的一个节点。专有网络VPC 专有网络VPC...
EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...
本文为您介绍 开源大数据平台 E-MapReduce(EMR)为RAM权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce(EMR)的RAM代码(RamCode)为 emr,emr-apm-server,ecm,emr-serverless-spark,dls...
关键性里程碑 2009年9月,ODPS(即现在的MaxCompute)大数据平台飞天项目正式启动。2010年10月,阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月,平台的单集群规模已达到5000台。2014年7月,平台开始对外提供服务,完全替换...
阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...
说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的数据,存储在业务系统所对应的数据库中,包括MySQL、Oracle和RDS等类型。数据收集与存储:您需要同步...
价值体现 从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将宝宝树现有的场景实时化(...
目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...
DataWorks当前支持订阅的事件覆盖了运维中心、DataStudio和数据治理三个功能模块中的事件,详情如下表所示。应用范围 所属模块 事件细分 事件描述与类型 事件示例 空间级 运维中心 实例操作事件 描述:在运维中心对实例进行冻结、解冻等...
DataWorks的数据服务功能模块是灵活轻量、安全稳定的数据API构建平台,旨在为企业提供全面的数据共享能力,帮助用户从发布审批、授权管控、调用计量、资源隔离等方面实现数据价值输出及共享开放。功能概述 作为数据仓库与上层应用系统间的...
在为企业级大数据平台创建项目时,建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目,对于ADS层的数据,按照应用的粒度建立项目。项目分配 在本教程中,建议参考下图建立您的MaxCompute项目,图中的每一个方块代表一个项目。...
大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能,对用户选择合适的大数据平台产品具有重要的参考价值,TPC-DS逐渐成为了业界公认的大数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。本文为您介绍JindoData各版本支持的功能。背景信息 JindoData是原阿里云EMR SmartData组件...
产品能力 DataWorks作为阿里云一站式大数据开发与治理平台,在各项能力支持上预设了很多拓展点,例如,在标准模式下,简略来看,节点创建后完成代码开发后,需先提交到开发环境中进行验证,完成后再正式发布到生产环境中,后续每天根据调度...
产品类型 功能介绍 计费项 计费说明 计费标准参考 智能数据建模 智能数据建模是DataWorks自研的建模产品,支持数仓规划设计、制定并沉淀企业数据标准、维度建模、数据指标定义,帮助您将建模设计产出的维度表、明细表、应用表、汇总表物化...
数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。使用限制 ...
DataWorks的数据地图功能可以帮助您实现对数据的统一管理和血缘的跟踪。数据地图 以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。
DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步...
英国(伦敦),美国(硅谷),美国(弗吉尼亚),阿联酋(迪拜)所有DataWorks用户 数据集成概述 DataWorks支持EMR新版数据湖DataLake DataWorks支持基于EMR计算引擎新版数据湖DataLake,实现基于EMR引擎的数据集成、数据建模、数据开发...
专业版 基于DataWorks标准版,增加更专业的数据安全功能,同时增强数据治理、数据服务的功能,完善的数据开发与运维功能,提供产品化的数据治理、数据安全解决方案。此版本适合中小型企业使用。企业版 基于DataWorks专业版,在该版本上您...
功能介绍 各模块功能介绍如下:功能 描述 智能基线 智能基线能够及时捕捉导致基线上任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出。创建及管理基线,详情请参见:基线管理。查看基线实例运行...
说明 数据同步基于数据源控制任务读写端数据库,您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,以便在同步过程中,可通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。...
2023-12 功能名称 功能描述 发布时间 发布地域 使用客户 相关文档 数据开发(DataStudio)绑定数据源 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)...
DataWorks的 数据开发(DataStudio)是数据加工的开发平台,运维中心 是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...
数据服务支持您编写函数,并将函数关联至API,使得函数可以作为API的过滤器使用,对API的请求参数或返回结果进行加工处理。本文为您介绍函数功能。使用限制 您需要购买DataWorks基础版及以上版本,才可以使用过滤器功能。Python函数正在...
EMR版本 组件版本 功能增强 EMR-5.2.1 Spark 3.1.1 支持数据湖格式Delta Lake和Hudi。支持Remote Shuffle Service。支持Livy。优化E-MapReduce控制台上,Spark服务 配置 页面的 spark-defaults 页签的配置项名称。优化CBO(Cost-Based ...
功能模块 您可通过控制台了解DataWorks各模块的功能及使用流程,并快速进入指定工作空间的 数据集成、智能数据建模、数据开发、运维中心、数据质量、数据分析、数据地图、安全中心、数据治理中心、数据服务、管理中心 模块执行相关操作。...
您在数据开发和数据分析中执行SQL语句查询数据时,若该数据被识别为敏感数据,平台将会按照脱敏规则进行遮盖、加密等模式的脱敏展示,加强企业数据安全管控。2024.1.25 所有地域 所有DataWorks用户 数据脱敏能力概述 数据保护伞概述 数据...
背景信息 可恢复性写入功能支持将数据以EXACTLY_ONCE语义写入存储介质,在大数据场景下保证了数据的安全性和一致性。在Flink作业中的用法 通用配置 为了支持EXACTLY_ONCE语义写入JindoFS或OSS,您需要执行如下配置:打开Flink的检查点...
DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks,支持作业跨云、跨Region、跨账号迁移,实现DataWorks作业快速克隆部署,同时DataWorks团队联合大数据专家服务团队,上线迁云服务,帮助您快速实现数据与任务的上云。功能概述 ...
大数据存储与计算:云原生大数据计算服务 MaxCompute(必选)、实时数仓Hologres(可选)、开源大数据平台E-MapReduce(可选),您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度:大数据开发治理平台 DataWorks数据...
本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...
例如,在配置数据集成任务前,可先在DataWorks数据源管理页面,配置好需同步的源端和目标端数据库或数据仓库的相关信息,并在同步过程中,通过数据源名称来控制读取和写入的数据库或数据仓库。开源集群 在 开源集群 处,可管理已绑定至...
数据保护伞 是一款数据安全管理产品,提供数据发现、数据脱敏、数据水印、访问控制、风险识别、数据溯源等功能,帮助您快速梳理敏感数据并进行安全管控,保障数据安全。本文示例使用内置规则对 xc_dpe_e2_dev 项目的 phone 数据脱敏,并...