创建通用项目

更新时间: 2023-08-10 13:28:55

项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。本文为您介绍如何创建项目。

背景信息

Dataphin支持以下两种开发模式的项目:

  • Dev-Prod模式:完成项目的创建后,系统默认生成了开发环境(Dev项目)和生产环境(Prod项目)。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。

  • Basic模式:完成项目的创建后,系统默认生成了Basic项目(开发和生产一体的项目)。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。

    重要

    Basic模式不支持升级为Dev-Prod模式,且Basic模式存在直接变更生产风险,请您谨慎选择。

    如果选择了Basic模式,请您谨慎管理项目成员,以控制数据生产的稳定性。

前提条件

在开始执行操作前,请确认您以满足以下条件:

  • 如果您需要研发流批一体任务,您需要根据业务需求选择支持流批一体的计算源并进行新建。具体操作,请参见:

  • 如果您选择的Dataphin的计算引擎为MaxCompute,且数据研发过程中需要使用规范建模、即席查询、MaxCompute SQL计算任务等功能,则在创建项目空间前需要完成MaxCompute计算源的创建,请参见新建MaxCompute计算源

  • Dataphin支持添加Hologres加速计算源至已绑定MaxCompute计算源的项目,加速数据服务的查询速度。如果您需要加速业务数据的查询速度,则在创建项目空间前需要创建加速计算源, 详情请参见创建加速计算源

  • 如果您选择的Dataphin的计算引擎为Hologres,且数据研发过程中需要使用即席查询、Hologres SQL计算任务等功能,则在创建项目空间前需要完成Hologres计算源的创建,请参见创建Hologres计算源

使用限制

  • 系统支持超级管理员、系统管理员、板块架构师角色的账号创建项目。

  • 系统仅支持项目超级管理员、系统管理员、板块架构师角色的账号,具备关闭和开启数据表读写的权限申请。

  • 若您项目中需要关联PAI创建对应的调度任务,则需将PAI-Studio升级为PAI-Designer,将旧版控制台Studio中的实验一键迁移至新版Designer中,如何升级,请参见迁移Studio实验至Designer

步骤一:选择项目类型

  1. 请参参见数仓规划入口,进入数仓规划页面。

  2. 按照下图操作指引,进入新建项目对话框。

    说明

    Dataphin支持创建两种类型的项目:通用项目和标签项目。

    • 通用项目:主要用于数据集成、数据开发等任务的创建以及管理。若您需要以项目为单位,划分业务领域进行数据研发,您可以创建通用项目,从而能够高效的管理和协作。

    • 标签项目:主要用于对数据进行标签化的创建以及管理。若您需要以项目为单位,划分业务领域进行标签研发,您可以创建标签项目。具体操作,请参见创建标签项目

    image.png
  3. 新建项目对话框,选择所需创建的项目模式。

  4. 单击下一步

步骤二:配置项目的归属板块和基本信息

新建项目对话框的归属板块基本信息区域,配置参数。Dev-Prod模式Basic模式需要配置的参数相同,以Dev-Prod模式为例。

区域

参数名称

描述

归属板块

数据板块

选择项目所属的数据板块。

基本信息

公用英文名

填写项目的公用英文名。命名规则如下:

  • 包含字母、数字、下划线(_)

  • 不支持以LD_开头。

  • 不能超过64个字符。

开发环境项目英文名默认以_dev作为后缀。

计算引擎为MaxCompute时,建议项目的公用英文名与对应的MaxCompute项目名一致。

公用名称

填写项目的公用名称。命名规则如下:

  • 包含汉字、数字、字母、下划线(_)或短划线(-)。

  • 不支持以LD_开头。

  • 不能超过64字符。

计算源类型

选择计算源类型后选择对应的计算源。

重要
  • 已绑定项目的计算源,无法被其他项目再次绑定。

  • Dev项目和Prod项目的计算源需保持一致。

根据Dataphin初始化的计算引擎不同,支持选择的计算源类型也不同,详细说明如下:

  • Dataphin计算引擎初始化为MaxCompute,则需要选择计算源类型,支持选择的离线引擎包括MaxCompute、Hologres;支持的实时引擎包括Alibaba Blink、Ververica Flink、Flink。当离线计算引擎为MaxCompute时,支持使用Hologres作为查询加速引擎。

    说明

    1个Hologres引擎仅支持1个场景(服务或离线引擎)/项目。

    Dataphin对接了机器学习PAI,为您提供了机器学习PAI基础的算法调度能力。在机器学习平台中,创建可视化建模的工作空间时,资源选择为基于MaxCompute的计算资源组,详情请参见资源管理概述。如果您开启了机器学习,需要配置以下参数。

    • PAI地域:选择和Dataphin实例所在地域。

    • 访问方式:选择机器学习PAI的访问方式。支持VPC公网访问方式。

    • AccessKey IDAccessKey Secret:配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。

    • PAI项目名称:选择PAI项目。

      建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。

描述信息

填写对项目的简单描述。

步骤三:配置项目的业务信息及安全信息

Dev-Prod模式Basic模式需要配置的参数相同,以Dev-Prod模式为例为您介绍。

区域

参数

描述

业务信息

空间类型

区分项目开发任务及产出数据特征,默认为应用层。空间类型包括4种:

  • 中间层:通常用于储存数据进行加工后,一致的、准确的、干净的数据。

  • 贴源层:通常用来储存从业务系统中集成的原始数据,为后续的加工与开发作为数据的来源。

  • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。

  • 通用层:通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。

安全设置

数据读权限申请

开启或关闭数据读权限申请:

  • 关闭数据读权限申请后,当前项目下物理表及元表不支持申请查询权限,同时系统不收回已申请过的查询权限。

  • 开启数据读权限申请后,当前项目下的物理表及元表支持申请查询权限。申请查询权限的更多信息,请参见申请权限

数据写权限申请

开启或关闭数据写权限申请:

  • 关闭数据写权限申请后,当前项目下的物理表及元表不支持申请写入权限,同时系统不收回已申请过的写入权限。

  • 开启数据写权限申请后,当前项目下的物理表及元表支持申请写入权限。申请写入权限的更多信息,请参见申请权限

步骤四:发布设置与任务参数配置

区域

参数

描述

发布设置

发布审批

开启后,该项目下的对象发布流程必须走发布审批。

image..png
  • 审批人:该项目下有对象发布时由谁进行审批。自定义审批人至多选择10人,不含项目管理员。

  • 审批策略:Dataphin目前仅支持并行审批,默认勾选,不可修改。审批时任一审批人同意即通过,任一审批人驳回即终止。

任务参数配置

Flink任务默认参数配置

  • 开启实时引擎后,您可在文本框输入Flink相关参数配置。后续创建该项目下的Flink任务时,将默认配置该参数信息。

  • 参数格式必须为键值对格式:key:value。如:taskmanager.numberOfTaskSlots:1。

更多设置

默认功能菜单

选择该项目所归属的数据板块后,系统将根据您所选的空间类型默认勾选对应的功能菜单。您可根据您的业务需求进行勾选修改。

说明

选择Hologres计算引擎时,不支持默认功能菜单。

生产环境周期性调度

说明

Basic项目为周期性调度

开启,任务自动调度:开启时,该项目下的周期性任务新生成的实例状态将与任务状态一致(历史实例无影响)。

关闭,任务暂停调度:关闭后,该项目下的周期性任务新生成的实例将置为暂停状态(历史实例无影响)。关闭周期性调度可能造成严重后果,请谨慎操作。

说明

Dev环境下的实例状态会默认从“未运行”变更为“暂停”。

后续步骤

创建完项目后,即可进入数据研发模块进行数据开发。更多信息,请参见数据开发概述

阿里云首页 智能数据建设与治理 Dataphin 相关技术圈