DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

概述

EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。

技术架构选型

在数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴数据建设方法论,支撑数据中台建设,同时与...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种数据引擎的数据处理任务。它集成了强大的...

运维阶段

背景信息 数据开发人员主要需要处理以下事项:程序异常处理、性能优化。调度异常处理。数据质量监控规则异常分析、规则优化。数据异常的核查。运维阶段的流程包括分析影响、制定与实施方案和验证实施方案。操作步骤 分析影响。运维人员或...

加工数据

背景信息 数据开发DataStudio提供丰富的节点,并对引擎能力进行封装,本案例使用 ODPS SQL节点 对同步至MaxCompute的用户数据与访问日志数据进行分层加工,具体逻辑请参照下文。业务流程管控:使用 虚拟节点 统筹管理整个业务流程,例如...

透视分析:按研发链路

支持您按照研发链路(数据同步和数据开发)查看和分析工作空间内DataWorks离线同步任务和DataWorks调度任务运行情况及资源消耗详情。便于您了解当前花费较多的资源类别、识别运行失败的任务,合理调整消费结构,发现阻塞任务运行的问题并...

云产品集成

常见云产品如下:大数据开发治理平台 DataWorks 实时计算 Flink 版 数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现 前提条件 已获取 OceanBase 数据库的基本连接信息,详细步骤请参见 获取连接参数。大数据开发治理平台 ...

大数据AI公共数据集分析

教程简介 阿里云DataWorks基于多种数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。本教程通过DataWorks,联合云原生数据计算服务MaxCompute,使用数据AI公共数据集(淘宝、飞猪、阿里音乐、...

DataWorks On CDP/CDH使用说明

新增和使用独享调度资源组 二、开发环境准备 您需先在DataWorks工作空间注册 CDP或CDH 集群,才可在数据开发(DataStudio)进行数据开发工作,并以工作空间为单位管理空间成员,以便进行协同开发。类别 描述 相关文档 数据同步环境准备 ...

上海新能源汽车车辆基础数据

客户简介 上海市新能源汽车公共数据采集与监测研究中心(以下简称“数据中心”)是2014年底由上海市社会团体管理局批准注册成立,由上海市经济和信息化委员会负责业务指导,是上海市的新能源汽车市级监管平台,其主要职责是对上海市推广的...

准备环境

前提条件 大数据开发治理平台DataWorks:购买DataWorks,详情请参见 购买指引。说明 因本示例提供的数据资源都在华东2(上海),建议购买时选择地域为华东2(上海)。对象存储OSS:已开通OSS服务,具体步骤,请参见 开通OSS服务。步骤一:...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录 时间 特性 类别 描述 产品文档 2023.12.29 新增功能 数据开发 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发...

创建解决方案

背景信息 DataWorks对数据开发模式进行全面升级,按照业务种类组织相关的不同类型的节点,让您能够更好地以业务为单元、连接多个业务流程进行开发。DataWorks通过 工作空间>解决方案>业务流程 三级结构,全新定义开发流程,提升开发体验:...

子账号使用DataWorks

访客 仅有只读权限,可以查看数据开发页面的业务流程设计和代码内容。安全管理员 仅有数据保护伞模块的操作权限,详情请参见 数据保护伞。使用子账号登录 DataWorks控制台,单击 数据开发 页面的 DataStudio。您可以根据业务需求进行数据...

MaxCompute资源管理

您可以通过MaxCompute资源面板,查看在MaxCompute计算引擎中存在的资源、资源的变更历史,并可以一键添加资源文件至数据开发面板的业务流程中。使用限制 仅支持MaxCompute客户端(odpscmd)上传的不超过200M的资源通过MaxCompute资源功能...

用户价值

数据开发更简单:平台提供的各种工具产品能够极的简化数据开发过程,缩短数据治理周期,降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程,完成流水线式的数据生产作业,提升数据资源生产效率、消除数据供应品质差异。...

注册CDH或CDP集群至DataWorks

以下简称CDH)和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。背景信息 CDH是Cloudera的开源平台...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时,支持对开发、测试、生产等环境进行隔离,当您联合使用了其他阿里云产品时,也可根据环境隔离诉求进行对应业务的环境设置与隔离,本文以DataWorks联合EMR、OSS等产品为例,为您介绍如何实现开发生产等多套...

创建Hologres内部表

登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。创建 业务流程。如果您已有 业务流程,则可以忽略该步骤。鼠标悬停至 图标,选择 新建业务流程。在 新建业务流程 ...

公开数据集概述

详情如下:customer(消费者信息)lineitem(在线商品信息)nation(国家信息)orders(订单信息)part(零件信息)partsupp(供货商零件信息)region(地区信息)supplier(供货商信息)说明 表中数据源于 TPC。更新周期 提供固定数据,不...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。章节目标 将MySQL存储的用户基本信息及OSS存储的网站访问日志数据,通过数据集成服务同步至...

采集数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。章节目标 将MySQL存储的用户基本信息及OSS存储的网站访问日志,通过数据集成服务将数据同步至...

参数节点

本文为您介绍如何创建参数节点,引导您高效使用DataWorks进行数据开发。背景信息 参数节点本质上是一种虚拟节点,不会运行数据计算任务产生数据,主要用于跨节点传参、参数管理的场景。跨节点传参 当数据开发的业务流程中,某个下游节点的...

功能更新动态(2022年之前)

2020年11月17日 华北2(北京)新建自定义组件 输入组件 输出组件 2020年11月26日 华南1(深圳)2020年12月15日 华东2(上海数据开发 新增全局代码搜索功能,支持快速搜索Dataphin实例内所有的代码。说明 历史提交过的代码不支持搜索。...

扩展程序概述

产品能力 DataWorks作为阿里云一站式大数据开发与治理平台,在各项能力支持上预设了很多拓展点,例如,在标准模式下,简略来看,节点创建后完成代码开发后,需先提交到开发环境中进行验证,完成后再正式发布到生产环境中,后续每天根据调度...

功能更新动态(2022年)

本文将为您及时同步2022年的Dataphin版本发布信息。2022年11月 功能名称 功能描述 发布时间 发布地域 相关文档 Dataphin免费试用申请 支持在线申请Dataphin免费试用,可试用30天。包括智能研发版、资产质量、智能运维、数据标准、资产安全...

功能发布记录 2022年之前

透视分析:按资源类型 2021-11 功能名称 功能描述 发布时间 发布地域 相关文档 数据开发新增资源组编排功能。DataWorks的资源组编排功能,帮助您在数据开发阶段,批量修改指定业务流程下目标节点使用的调度资源组。当您的工作空间中有多个...

创建Hologres数据

如果您使用的是Hologres,在对接Dataphin进行数据开发时,您需要先完成Hologres数据源的创建。更多Hologres信息,请参见 什么是实时数仓。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。若您需...

环境准备

说明 DataWorks的工作空间分为 简单模式 和 标准模式:简单模式:指一个DataWorks工作空间对应一个引擎项目,无法设置开发和生产环境,只能进行简单的数据开发,无法对数据开发流程以及表权限进行强控制。标准模式:指一个DataWorks工作...

创建业务流程

背景信息 DataWorks的数据开发功能支持在业务流程中,通过可视化拖拽来完成节点间的依赖设置。您可以通过操作业务流程的方式,实现对数据的处理和相互依赖。一个工作空间下支持创建多个业务流程,详情请参见 创建业务流程。创建业务流程 ...

创建Oracle数据

如果您使用的是Oracle,在对接Dataphin进行数据开发时,您需要先完成Oracle数据源的创建。更多Oracle信息,请参见 Oracle官网。权限说明 仅支持具备新建数据源权限的账号进行新建。更多信息,请参见 数据源权限说明。操作步骤 在Dataphin...

功能发布记录(2022年)

2022.7.2 华东1(杭州),华东2(上海),华北2(北京),华北3(张家口),华南1(深圳),西南1(成都),中国香港 所有DataWorks用户 数据开发概述 2022-6 功能名称 功能描述 发布时间 发布地域 使用客户 相关文档 数据治理中心全面开放...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间(本实践以使用标准模式工作空间为例,简单模式的操作类似)。操作详情请参见 开通DataWorks服务、创建工作空间。开通 云原生数据计算服务MaxCompute,并创建MaxCompute项目。操作详情请...

独享调度资源组

网络连通方案 独享调度资源组与其他资源组类似,本质上为一组阿里云ECS实例,在进行数据开发等任务运行时,需保障资源组与数据源之间的网络是连通的,且不会因为白名单等特殊安全访问设置阻断资源组与数据源之间的网络连通性。说明 如果独...

(邀测)MaxCompute Notebook使用说明

支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。版本说明 当前MaxCompute Notebook功能处于邀测阶段,每个租户最多可启动3个Notebook实例,每个...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 云数据库 Redis 版 数据传输服务 数据库备份 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用