大数据规范-大数据规范文档介绍内容-阿里云

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

模型规范化检查

模型规范化检查是指在进行数据模型设计的过程中，开启数据规范检查功能，在建模时予以参考。操作步骤在模型设计区的下方可以看到模型规范选项卡，单击开始检查即可对模型的设计规范进行检查，错误、警告、提示栏中分别显示模型规范...

CDM公共维度层设计规范

数据记录数较大的维度表（例如商品表），可以适当冗余一些子集合，以减少下游扫描数据量：可以根据当天是否有行为，产出一个有活跃行为的相关维表，以减少应用的数据扫描量。可根据所属业务扫描数据范围大小的不同，进行适当子集合冗余。表...

数据治理中心概述

相关概念检查项：用于任务提交、发布等环节的事前检查，在开发流程中检测不符合数据规范的内容，生成影响开发流程正常执行的问题事件，约束、管理开发流程。例如，检查项可以配置为禁止使用 select*语句，不允许通过 create table 语句...

计费逻辑说明

用于将数据模型设计管控、引标落标等能力融入DataWorks规范化开发流程，助力您实现数据资产价值化输出，详情请参见 DATABLAU概述。DATABLAU 费用包含：功能模块本身的费用。付费并发登录DATABLAU的用户数费用。DATABLAU数据建模计费标准 ...

表设计规范

表数据存储规范按数据层规划数据的生命周期：源表ODS层：每天从业务系统同步过来的数据，全部保留，生命周期定义永久保存。当下游数据受损时，可以从ODS恢复数据。若ODS每天同步过来的是全量表，则可以通过全表拉链的方式来压缩存储。数据...

ODS层设计规范

数据同步及处理规范数据同步方式的选择基本规范通过需求形式落地到DataWorks的数据集成，规范落地情况依赖工具的推进节奏。一个系统的源表只允许同步一次到MaxCompute。数据加载与处理通过一键实时同步至MaxCompute方案实现，请参见 ...

MaxCompute数据开发规范

本文为您介绍MaxCompute数据开发规范，包括项目空间、表、视图、工作流节点和编码规范。在进行数据开发前，请做好数据仓库研发流程的阶段规划，了解各种角色及其职责，具体内容请参见数据仓库研发规范概述。项目空间管理规范关于项目划分...

CDM接口数据层设计规范

本文为您介绍CDM接口数据层设计规范。接口数据层将不同数据域的汇总数据预关联在一个物理表，开放给应用使用，以减少应用层多次重复JOIN的成本开销，CDM接口数据层更适用于实时计算。命名规则：{project_name}.dwi{业务 BU 缩写/pub}{数据...

层次调用规范

层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据的建设需求，将公用的数据沉淀到公共层，为其他数据层次提供数据服务。...

数据模型架构规范

本文为您介绍数据模型架构规范。声明本文以及后续章节中介绍的非功能性规范均为建议性规范，产品功能无强制，仅供指导。数据层次的划分 ODS：Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它...

公共规范

公共字段定义规范数据统计日期的分区字段按以下标准：按天分区：ds(YYYYMMDD)。按小时分区：hh(00~23)。按分钟：mi(00~59)。is_{业务}：表示布尔型数据字段。以 Y 和 N 表示，不允许出现空值域。原则上不需要冗余分区字段。数据冗余一个...

CDM明细层设计规范

本文为您介绍CDM明细层的表、数据存储与生命周期管理和各种事实表的设计规范。表命名规范命名规则：{project_name}.dwd{业务缩写/pub}{数据域缩写}{业务过程缩写}[{自定义表命名标签缩写}]{刷新周期标识}{单分区增量全量标识}。命名说明：...

CDM汇总层设计规范

命名规范命名规则：{project_name}.dws{业务缩写/pub}{数据域缩写}{数据粒度缩写}[{自定义表命名标签缩写}]{统计时间周期范围缩写}{刷新周期标识}{单分区增量全量标识}。命名说明：在默认情况下，离线计算应该包括最近一天（1d）、最近N天...

大数据专家服务

大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户构建和持续优化的大...

需求阶段

作为承接业务方数据需求的数据产品经理，在需求阶段需要规范首次需求流程和迭代需求流程。首次需求流程对于业务方首次提出的需求，重点工作在于评估完成该需求的技术、数据、合规的可行性后，以细化需求的方式完成产品需求文档，并组织...

层次调用规范

层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据的建设需求，将公用的数据沉淀到公共层，为其他数据层次提供数据服务。...

SQL代码编码原则和规范

查询嵌套编写规范在数据仓库系统ETL开发中经常使用子查询嵌套，其编写规范示例如下。表别名定义约定一旦在SELECT语句中给操作表定义了别名，在整个语句中对此表的引用都必须以别名替代，所以需要给所有的表添加别名。表别名采用简单字符...

大数据开发治理平台 DataWorks

大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万...

权限管理与规范化数据开发

本实践将基于DataWorks标准模式空间完成从“数据建模”到“数据生产”的基本流程，帮助您快速掌握规范化的数据体系建设流程，提升在数据开发过程中的规范性、安全性、稳定性。背景信息 DataWorks采取RBAC权限模型供用户管理DataWorks所有...

数据引入层（ODS）

ODS层设计规范 ODS层表命名、数据同步任务命名、数据产出及生命周期管理及数据质量规范请参见 ODS层设计规范。建表示例为方便您使用，集中提供建表语句如下。更多建表信息，请参见表操作。CREATE TABLE IF NOT EXISTS s_auction(id ...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

常见问题

1.售前咨询渠道尊敬的“准”大数据专家服务用户您好：如果您准备购买阿里云大数据专家服务，但是遇到如服务范围、规格、服务选择等售前方面的问题，您可以通过钉钉与我们联系，您将“当面”获得阿里云大数据专家咨询专家的建议。...

操作指南

一、大数据专家服务流程指南二、服务流程说明用户可以根据自己实际需要，提前或者在问题发生时购买大数据专家服务，服务项包含大数据技术架构方案咨询、大数据解决方案POC、大数据搬站迁云方案咨询、跨地域迁移支持服务、大数据专家高阶...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

应用场景

数据分析业务云数据库 Memcache 版搭配大数据计算服务 MaxCompute。实现对大数据的分布式分析处理，适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步，简化数据操作...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

DataWorks快速入门指引

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为了便于新用户快速了解DataWorks的数据开发治理操作全流程，DataWorks为您提供了...

离线数仓构建流程概述

步骤三：引入数据规范定义基于Dataphin数据研发模块，明确统计指标口径并完成配置开发，相关的定义包括业务对象、业务活动、原子指标、业务限定和派生指标。步骤四：规范定义规范建模基于规范定义部分定义好的概念以及Dataphin的规范...

离线数仓构建流程概述

步骤三：引入数据规范定义基于Dataphin数据研发模块，明确统计指标口径并完成配置开发，相关的定义包括业务对象、业务活动、原子指标、业务限定和派生指标。步骤四：规范定义规范建模基于规范定义部分定义好的概念以及Dataphin的规范...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

DataWorks on EMR数据安全方案

在大数据领域，阿里云为企业用户提供了一整套数据安全方案，包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例，为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

大数据 规范

新品推荐

大数据规范