DataWorks为您提供智能建模、数据清洗、周期调度运维、数据治理等一站式大数据开发管理能力,本文以一个零售电商行业的数仓搭建实验为例,为您介绍DataWorks在数仓搭建过程中的技术选型、技术流程以及流程实现,帮助您深入了解阿里云...
产品架构 DataWorks十多年沉淀数百项核心能力,通过 智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力。...
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台,为了便于新用户快速了解DataWorks的数据开发治理操作全流程,DataWorks为您提供了...
Dataphin面向各行各业大数据建设、管理及应用诉求,一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力,包括产品、技术和方法论等,可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...
登录 DataWorks控制台,单击左侧导航栏的 数据治理>数据治理中心,在下拉框中选择对应工作空间后单击 进入数据治理中心。单击顶部菜单栏的 使用分析,左侧导航栏 研发链路透视 类目下,按照研发链路进行透视分析。查看DataWorks消费数据及...
涉及产品 本案例涉及以下产品:一站式大数据开发治理DataWorks 本案例通过DataWorks实现数据采集、加工、质量监控,以及数据可视化展现,您需提前开通该服务。详情请参见 开通DataWorks服务。云原生大数据计算服务MaxCompute 实现底层加工...
在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。...
根据阿里巴巴OneData方法论最佳实践,在设计数据模型前,您需要完成技术架构的选型。本教程中使用阿里云大数据产品Dataphin配合MaxCompute,完成整体的数据建模和研发流程。完整的技术架构如下图所示。其中,Dataphin的数据集成及同步负责...
通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据地图,在右侧页面中单击 进入数据地图。在搜索框上方,选择 API 类目,进入查找API的页面。查找API 在API类目下的搜索框中输入 API ID、API Path、API名称、API...
DataWorks数据治理中心新增资源使用分析功能,从 MaxCompute存储消耗、MaxCompute计算消耗、DataWorks调度消耗、DataWorks离线同步消耗 四个维度展示资源消耗总览、资源消耗异动,以及资源消耗明细。2021.12.9 全部地域。透视分析:按资源...
支持 NoSQL数据源 Elasticsearch 支持 支持 MongoDB 支持 支持 Tablestore 支持 支持 Aliyun HBase 不支持 不支持 Redis 支持 不支持 Lindorm 不支持 不支持 半结构化存储数据源 API 支持 支持 SAP Table 支持 不支持 整库迁移支持的数据源...
单击左上方的 图标,选择 全部产品>数据治理>数据保护伞,单击 立即体验,进入数据保护伞。说明 若阿里云主账号已授权,则直接进入数据保护伞的首页。若阿里云主账号未授权,则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。...
其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情,请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...
背景信息 MaxCompute即阿里云大数据计算服务,适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化...
其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情,请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。超级管理员、数据源管理员角色添加与...
背景信息 MaxCompute即阿里云大数据计算服务,适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化...
离线集成支持的数据源 数据源 读取 写入 大数据存储型数据源 MaxCompute 支持 支持 Hive 支持 支持 Hologres 支持 支持 IMPALA 支持 支持 TDH Inceptor 支持 支持 Kudu 支持 支持 StarRocks 支持 支持 Hudi 支持 支持 Doris 支持 支持 ...
云治理中心是企业在阿里云上进行多账号集中IT治理的平台。...功能特性 资源结构搭建 商业结算关系建立 企业...持续治理和优化 云治理中心根据企业当前的治理状况,自动提示治理风险,并提供优化建议,帮助企业持续完善治理环境,提升治理能力。
DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...
背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。权限说明 仅支持 超级管理员、数据源管理员、板块架构师、项目管理员 角色创建数据...
背景信息 Hudi即Apache Hudi,Hudi是一个通用的大数据存储系统,将核心仓库和数据库功能直接引入到数据库中,并支持记录级别的插入更新和删除数据的能力。更多信息,请参见 Apache Hudi官网。权限说明 仅支持 超级管理员、数据源管理员、...
通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...
通过创建Impala数据源能够实现Dataphin读取Impala的业务数据或向Impala写入数据。本文为您介绍如何创建Impala数据源。背景信息 Impala是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是Impala,在导出Dataphin数据至...
通过创建Teradata数据源能够实现Dataphin读取Teradata的业务数据或向Teradata写入数据。本文为您介绍如何创建Teradata数据源。背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata,在对接Dataphin进行数据开发或导出...
配置API输出组件,可以将外部数据库中读取的数据写入到API,或从大数据平台对接的存储系统中将数据复制推送至API,进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件 在开始执行操作前,请确认您已完成以下操作:已创建API...
配置API输出组件,可以将外部数据库中读取的数据写入到API,或从大数据平台对接的存储系统中将数据复制推送至API,进行数据整合和再加工。本文为您介绍如何配置API输出组件。前提条件 在开始执行操作前,请确认您已完成以下操作:已创建API...
功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...
功能介绍 多数据源类型接入:Dataphin内置丰富的数据源类型,支持对接的数据源包括大数据存储型数据源、文件型数据源、消息队列型数据源、关系型数据源和NoSQL数据源。更多信息,请参见 Dataphin支持的数据源。自定义数据源类型:在内置的...
通过创建HBase数据源能够实现Dataphin读取HBase的业务数据或向HBase写入数据。本文为您介绍如何创建HBase数据源。背景信息 HBase是用于处理存储在Hadoop集群中大量数据的SQL查询引擎。如果您使用的是HBase,在导出Dataphin数据至HBase,您...
如果差异较大,可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比 高可用场景下,需要构建多条链路,以便数据出现异常时,能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题,提升实时...
如果差异较大,可能存在较大数据质量的问题需要进行确认和修复。实时多链路对比 高可用场景下,需要构建多条链路,以便数据出现异常时,能够及时切换。对于多链路之间的数据计算进度监控则可以发现一些数据滞留、统计偏差问题,提升实时...
以下为您系列讲解阿里云数据治理能力解读。数据治理的产品介绍 主要产品:DataWorks 课程时长:25分钟 DataWorks数据治理能力的最佳实践 主要产品:DataWorks、MaxCompute 课程时长:19分钟
数据治理人员可通过 全局视角、个人视角 或 工作空间视角 查看对应项目的待治理项,快速发现并解决存在的问题,推进团队内的数据治理目标。本文为您介绍如何查看并配置治理项。前提条件 已使用治理方案模板,详情请参见 查看治理方案模板。...
DataWorks数据治理中心的知识库为您汇总了常见治理项问题及检查项事件的解决方案,您可以参考所给方案自主排查并处理相应待治理问题。本文为您介绍知识库的相关内容。背景信息 在数据治理中心的 治理工作台,您可以查看当前租户下存在的...
背景信息 功能作用 治理方案模板是DataWorks的数据治理中心为您提供的排查当前登录账号下待治理问题的模板,该模板将常见的问题项进行了汇总、分类,并提供了相应的解决方案。您可以直接使用该模板快速发现当前账号中存在的待治理问题,并...
启用内置检查项:数据治理中心 自定义校验逻辑:开放平台 启用内置检查项:数据治理中心 DataWorks的数据治理中心为您内置了多个检查项,您可以根据业务需要选择开启对应的检查项,开启后,后续在涉及到对应操作时即会触发DataWorks的内置...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据治理中心,在下拉框中选择对应工作空间后单击 进入数据治理中心。单击顶部菜单栏的 治理工作台,在 治理工作台 页面的左侧导航栏单击 检查项事件,进入 检查项事件...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据治理中心,在下拉框中选择对应工作空间后单击 进入数据治理中心。单击顶部菜单栏的 配置管理,在 配置管理 页面的左侧导航栏单击 治理单元,进入 治理单元 页面。...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据治理>数据治理中心,在下拉框中选择对应工作空间后单击 进入数据治理中心。单击顶部菜单栏的 治理评估,进入 治理评估 页面。在该页面,您可以通过治理评估报告或治理排行榜...