离线数仓构建流程概述

本教程将从前期的资源准备、数仓规划,到后期的运维补数据、查看运行结果,指导您如何使用Dataphin完成基本的离线数仓构建。以帮助您快速了解Dataphin离线数仓建设的基础流程。

使用Dataphin进行离线数仓建设的基本流程如下:

主流程

描述

操作指导

准备工作

使用Dataphin进行离线数仓建设前您需完成相关云资源的准备。云资源准备包括阿里云账号资源准备、Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置、以及数据源的准备。

步骤一:准备工作

规划数仓

数仓规划是数据建设中的蓝图,在您开始数据开发前,需要完成数据仓库的规划,数仓规划配置包括:创建数据板块和主题域、计算源、数据源、项目及项目中的成员。

步骤二:规划数仓

数据集成

将创建好的数据源集成至项目。

步骤三:引入数据

规范定义

基于Dataphin数据研发模块,明确统计指标口径并完成配置开发,相关的定义包括业务对象、业务活动、原子指标、业务限定和派生指标。

步骤四:规范定义

规范建模

基于规范定义部分定义好的概念以及Dataphin的规范建模功能圈定来源数据,并完成模型建设。

步骤五:规范建模

数据开发

基于规范定义明确好的统计指标口径和规范建模部分定义好的模型完成规范建模数据开发。包括维度逻辑表、事实逻辑表、原子指标、业务限定、派生指标。

  1. 步骤一:开发维度逻辑表

  2. 步骤二:开发事实逻辑表

  3. 步骤三:开发原子指标

  4. 步骤四:开发业务限定

  5. 步骤五:开发指标

运维补数据

对任务进行数据回刷,包括管道任务、维度逻辑表、事实逻辑表以及指标。

步骤七:运维补数据

验证数据

您可以通过即席查询来验证数据的正确性。

步骤八:验证数据