场景:节点成环

本文为您介绍什么是节点成环,节点成环的原因及解决方法。什么是节点成环?节点成环指的是某节点为上游节点但又同时依赖了自己的下游节点,导致依赖关系成环,这类型节点在自动调度时不会被调起。生产环境若出现成环节点会自动报警,成环...

快速体验

DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录 时间 特性 类别 描述 产品文档 2023.12.29 新增功能 数据开发 若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发...

技术架构选型

在数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

DataWorks模块使用说明

使用流程概览:参考文档:DataWorks数据建模 子模块:数据开发(DataStudio)功能说明:数据开发(DataStudio)是一站式大数据开发平台,支持在线开发MaxCompute、EMR、Hologres、CDP、ADB等多种数据引擎的数据处理任务。它集成了强大的...

快速体验

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生数据计算服务MaxCompute 实现底层加工...

实验介绍

涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集,加工,质量监控,与数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生数据计算服务MaxCompute 实现底层加工...

使用DataWorks连接

DataWorks基于MaxCompute等引擎,提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间,绑定计算引擎后,您即可在DataWorks上创建对应引擎...

DataWorks on EMR数据安全方案

数据安全能力:任务管理 DataWorks提供了大数据开发运维等能力,其中工作空间、安全中心等功能模块可实现对数据计算任务的管理。工作空间:通过DataWorks的工作空间规划可以实现工作空间的人员管理、设置数据作业可见性和可运维性。...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

需求分析

本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。业务背景 为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,...

数据开发与运行

本文为您介绍数据开发的相关问题。资源 如何在pyodps调用第三方包?如何在节点内使用资源?如何下载上传到DataWorks的资源?超过30M的资源如何上传?通过odpscmd上传的资源如何在DataWorks上使用?在DataWorks如何上传自己本地编写的jar并...

大数据安全治理的难点

流转 数据系统通常是端到端的一整套数据开发和治理服务,不仅要采集数据、加工数据,更要将数据提供给业务方使用。因此,其存在错综复杂的数据流转链路,包括但不限于即席查询链路、离线传输链路、实时传输链路、数据服务API链路、其他...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

概述

如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行数据开发,详情请参见 什么是EMR Workflow。如果您在2022年2月21日21点前使用过数据开发功能,需要继续在EMR上使用数据开发功能,建议您尽快迁移到EMR ...

周期任务基本运维操作

节点 版本 如果通过发布流程发布的操作无详细记录,您可以在数据开发界面,通过节点版本与生产环境版本对比,获取版本变更的详细情况。详情请参见:发布任务。操作历史 操作历史可以查看任务、实例、基线的操作记录。需求请参见:查看运维...

SQL其他常见问题

由于复杂结构的超大字段在数据开发和分析中会严重影响计算性能,因此建议根据数据仓库建设规范来设计您的数据架构,避免出现超大字段:具有复杂结构的原始数据,作为ODS层,最好以压缩的方式归档。定时(例如每天)对ODS层的增量数据做数据...

数据加工过程卡点校验

数据资产等级的上下游打通的过程需要通知给在线开发人员,使其知晓哪些是重要的核心数据资产,提高在线开发人员的数据风险意识。您可以通过培训等方式,将离线数据的诉求、离线数据的加工过程、数据产品的应用方式告知在线业务开发人员,使...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

EMR数据开发停止更新公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute:用于进行规模数据计算,详情请参见 什么是MaxCompute。AnalyticDB MySQL:用于进行海量数据实时高并发在线分析,详情请参见 云原生数据仓库AnalyticDB MySQL版。DataWorks:可实现ETL功能,对复杂数据集进行采集、...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源,管理 OceanBase 数据库中的数据,通过数据集成...

开发部署扩展程序:函数计算方式

权限说明 开放平台管理员 和 租户管理员 拥有 开发者后台 的读写权限,其他租户级角色、空间级角色仅拥有开发者后台的只读权限。详情请参见 全局级模块权限控制。仅支持阿里云主账号或者拥有 AliyunDataWorksFullAccess 权限的RAM用户进行...

EMR旧版数据开发迁移公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态。如果您还在使用旧版控制台的数据开发功能,请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...

开发前准备:绑定数据源或集群

若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)模块。绑定后,才可读取数据源或集群中的数据,并进行相关开发操作。前提条件 您需根据后续要开发和调度...

通过函数计算节点实现GitHub实时数据分析与结果发送

开通 大数据开发治理平台DataWorks 并创建工作空间(本实践以使用标准模式工作空间为例,简单模式的操作类似)。操作详情请参见 开通DataWorks服务、创建工作空间。开通 云原生数据计算服务MaxCompute,并创建MaxCompute项目。操作详情请...

实时同步常见问题

若业务延迟较,其可能原因如下:报错现象 直接原因 解决方案 读端延迟 源端数据量变更过多。延迟突然增大,说明某一时间点源端数据量增加。若源端数据更新快,数据量多,但同步延迟,您可以:修改任务配置:您可以在源端数据库最大...

DataWorks准备工作流程

DataWorks是为您提供专业高效、安全可靠的一站式大数据开发与治理平台,使用其进行数据开发前,您需做好相关准备工作,保障后续开发任务可顺利执行。本文为您介绍DataWorks的购买及环境准备流程,帮助您快速开通DataWorks并准备所需开发...

DataWorks数据服务对接DataV最佳实践

现在通过DataWorks为您提供的 数据集成>数据开发>数据服务 的全链路数据研发平台,结合MaxCompute即可快速搭建企业数仓。DataWorks数据服务提供了快速将数据表生成API的功能,通过可视化的向导模式操作,无需代码便可快速生成API,然后通过...

EMR数据开发(旧版)停止全面支持公告

E-MapReduce(简称EMR)数据开发(旧版)已于2022年2月21日21点停止更新,进入维护状态,详情请参见 EMR数据开发停止更新公告。2023年9月30日0点起,EMR数据开发(旧版)功能将停止全面支持,不再支持用户答疑、问题解决、SLA保障赔付等...

EMR Workbench

通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作流。功能介绍 EMR Notebook 交互式编程环境:支持Jupyter笔记本,提供灵活的编程环境。多语言支持:允许使用Python、SQL等多种语言进行数据分析...

DataWorks V3.0

DataWorks V3.0全面支持EMR引擎的相关功能,包括元数据、数据地图、数据血缘、数据开发、任务调度、任务运维监控和数据质量控制等。详情请参见 E-MapReduce。交互式分析:交互式分析(Interactive Analytics)是一种全面兼容PostgreSQL协议...

MySQL节点

您可以通过创建MySQL节点,直接使用SQL语句对目标MySQL数据源进行数据开发。本文为您介绍如何创建并使用MySQL节点。前提条件 MySQL节点仅支持使用独享调度资源组,独享调度资源组的使用请参考文档:新增和使用独享调度资源组。已通过连接串...

创建Hologres数据

如果您使用的是Hologres,在对接Dataphin进行数据开发时,您需要先完成Hologres数据源的创建。更多Hologres信息,请参见 什么是实时数仓。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作...

购买指引

场景1:新用户推荐配置 推荐配置 推荐原因 功能:推荐购买 专业版,专业版满足企业专业的数据仓库构建需求,覆盖数据开发、任务运维、数据地图、数据质量等绝部分功能。资源:推荐购买 独享数据集成资源组,以支持更好的同步体验,支持离...

创建EMR Hive节点

前提条件 数据开发(DataStudio)中已创建业务流程。数据开发(DataStudio)基于业务流程对不同开发引擎进行具体开发操作,所以您创建节点前需要先新建业务流程,操作详情请参见 创建业务流程。已创建阿里云EMR集群,并注册EMR集群至...

创建EMR Presto节点

登录 DataWorks控制台,单击左侧导航栏的 数据建模与开发>数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。右键某个业务流程,选择 新建节点>EMR>EMR Presto。说明 您也可以单击顶部 新建 按钮,根据界面提示选择创建EMR节点。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用