数据开发概述

数据开发包括编码研发和规范建模。编码研发用于构建计算任务,例如创建SQL代码任务、Shell任务、 Python任务、MR任务和Spark任务;规范建模用于构建逻辑化的数据模型。

前提条件

若需进行实时开发,需已购买实时研发增值服务并且当前租户已开通实时研发模块。

功能介绍

  • 规范建模:基于已明确的业务需求,从业务顶层开始设计,规范定义数据的标准及计算口径完成数据模型的设计。同时您提供可视化、标准化、规范化和自动化定义数据,而非传统手动写SQL代码的方式,这样就避免了统计指标计算口径不一致的情况。可视化构建数据仓库的模型,逻辑表提交后即生成对应智能黑盒调度任务,自动化生产数据。

    说明

    仅绑定数据板块的项目支持规范建模功能。

  • 数据处理:通过编写代码的方式构建复杂的数据模型、构建同步任务和构建不同类型的代码任务。

  • 即席查询:即主题式查询,面向业务主题的数据查询。屏蔽了物理模型中技术特性带来的影响,基于逻辑模型从业务视角出发对外提供查询服务。

  • 双开发模式:Dataphin支持BasicDev-Prod的数据开发模式:

    • Basic项目绑定了Basic数据板块,系统支持规范建模功能。Basic项目绑定了Prod数据板块,则系统不支持规范建模功能,仅支持数据处理即席查询功能。

    • Dev项目支持规范建模数据处理即席查询功能。Prod项目支持规范建模数据处理功能。

  • 智能编辑器:Dataphin代码编辑器不仅支持基本的代码高亮、代码补全,还支持智能代码提示、权限校验等功能。助您降低开发成本,更快的交付可靠的代码和提升编码体验。编辑器使用说明,请参见编辑器代码提效

数据开发入口

在Dataphin首页,单击顶部菜单栏研发。默认进入数据开发页面。

image

数据开发界面介绍

image

区域

描述

全局搜索与代码搜索

  • 全局搜索:在全局搜索框中支持输入物理表、逻辑表、元表、规范定义、函数、资源或模板等名称的关键字,搜索目标对象。您可以单击研发资产页签,快速搜索目标对象。

    image

    • 项目切换:对象所在项目为Dev-Prod环境时,将会存在Dev项目对象和Prod项目对象,您可以通过项目切换查询具体对象。

    • 视角切换:Dataphin支持通过研发和资产视角查看对象。不同视角支持查看的对象类型不同。

      • 研发视角:包括物理表、逻辑表、元表、规范定义、函数、资源或模板。

      • 资产视角:包括物理表、逻辑表、元表。

    • 对象列表:为您展示当前匹配的对象。支持全局本项目视角切换同时也支持查看全部某一个对象类型。单击对象名称后,系统将自动定位到该对象。

  • 代码搜索:单击gageg图标,在代码搜索框中,输入您想查找的代码,系统将为您快速搜索匹配代码的计算任务。如下图所示:

    image

    • 代码搜索输入框:输入计算任务相关代码关键字,多代码时,可以单击image切换为文输入框。同时,您也可以单击image进入高级搜索页面,进行高级搜索。更多信息,请参见高级搜索提效

    • 搜索结果列表:将为您展示代码匹配中的计算任务,您可以单击对应任务查看具体计算任务详情。

    • 任务匹配详情:为您展示计算任务中代码匹配信息,相关行数及匹配数等。

说明
  • 系统仅支持搜索已提交开发中已发布状态的代码。

  • 最多可匹配到50个包含此代码逻辑的任务,代码搜索仅对当前项目生效。

  • 系统仅支持搜索版本升级后(2020年7月14日)提交过的代码。

项目与环境

  • 项目:默认为当前打开的项目名称。您可以单击项目名称后的test图标,在下拉列表中,依次选择项目分类(ProdDevBasic)及项目名称,切换项目。同时,您也可以在搜索框中输入项目名称、所属板块关键词,快速搜索项目。

  • 环境:单击tstt图标,可以切换项目环境。包括生产开发环境。

说明

Basic项目默认为生产环境,没有环境区分。

功能项

Dataphin数据开发板块包括规范建模数据处理、最近打开即席查询运行记录模块。

  • 规范建模:主要包含逻辑表的建模研发相关功能。包括维度逻辑表、事实逻辑表、原子指标、业务限定、指标、汇总逻辑表。更多信息,请参见规范建模概述

  • 数据处理:主要包含数据处理的计算任务相关功能。包括表管理、计算任务、计算任务模板、资源、函数。

    • 表管理:包括离线物理表管理和实时计算表管理。

      • 离线物理表:可帮助您统一配置与管理计算任务开发过程中用到的离线物理表。更多信息,请参见新建离线物理表

      • 实时计算元表:包括元表镜像表

        • 元表:元表是通过数据管理的跨存储类型表,实时任务开发过程中所用到的输入表、输出表、维表可以通过创建元表进行创建和管理。更多信息,请参见创建及管理元表

        • 镜像表:主要用于流批一体实时任务的开发镜像表映射了实时表和离线表,在开发流批一体实时计算任务时引用镜像表,将支持同步操作实时表和离线表。更多信息,请参见新建镜像表

    • 计算任务:支持创建包括SQL、MR、Jar、Shell、Python、Virtual类型的计算任务。更多信息,请参见计算任务概述

    • 计算任务模板:Dataphin支持创建离线和实时的计算任务模板。在后续开发任务时,可以引用创建的计算模板以提高任务的研发效率。更多信息,请参见:

    • 资源:主要用于存储、管理代码研发过程中所需的文件,如JAR、JSON、Python等资源文件。更多信息,请参见上传资源及引用

    • 函数:为您展示计算引擎在Dataphin中支持的内置函数自定义函数,函数信息包括函数名、函数类型、命令格式和函数说明。展示的计算引擎类型函数根据项目绑定的计算源决定。

      • 内置函数:不同计算引擎支持的内置函数不同,具体请以系统展示的函数为准。

      • 自定义函数:您可以通过上传Jar资源等方式创建自定义的函数。更多信息,请参见新建用户自定义函数

  • 最近打开:为您记录最近打开过的计算任务、函数、表等对象

  • 回收站:在数据开发板块删除的对象将会回收到回收站您可以在回收站中进行恢复或彻底删除。更多信息,管理回收站的资源对象

  • 即席查询:通过即席查询您可以根据当前的业务情况自定义并执行查询语句和下载查询的数据。更多信息,请参见查询并下载数据

  • 运行记录:运行记录为您保存近15天的即席查询、运行计算任务、逻辑数据表预览、派生指标冒烟测试、资产数据预览、OpenAPI数据查询的记录。更多信息,请参见查看并管理运行记录

对象列表目录

在Dataphin数据开发板块内置或创建的对象,将在对象列表目录中为您展示。

数据开发欢迎页

为您展示了在Dataphin中进行数据开发的基本使用路径以及研发相关的工具。您可以在各路径点工具块中单击image新建图标创建对应对象。