项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。在关注数据研发效率,且计算存储预算有限制的场景中,推荐您创建Basic模式的项目。Basic项目数据生产过程稳定且便捷。本文为您介绍如何创建Basic模式的项目。

背景信息

Dataphin支持两种开发模式的项目,详细说明见下表。
项目的模式 描述
Dev-Prod模式
完成项目的创建后,系统默认生成了开发环境(Dev项目)和生产环境(Prod项目)。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。Dev-Prod项目的更多信息,请参见创建Prod和Dev项目fagag
Basic模式 完成项目的创建后,系统默认生成了Basic项目(开发和生产一体的项目)。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。vaga
注意
  • Basic模式不支持升级为Dev-Prod模式,且Basic模式存在直接变更生产风险,请您谨慎选择。
  • 如果选择了Basic模式,请您谨慎管理项目成员,以控制数据生产的稳定性。

前提条件

在开始执行操作前,请确认您以满足以下条件:
  • 后续需要研发流批一体任务,则在创建项目前需要完成Flink计算源的创建,请参见新建Flink计算源
  • Dataphin的计算引擎为AnalyticDB for PostgreSQL,且数据研发过程中需要使用数据集成、即席查询、AnalyticDB for PostgreSQL的SQL计算任务等功能,则在创建项目前需要完成AnalyticDB for PostgreSQL计算源的创建,请参见新建AnalyticDB For PostgreSQL计算源
  • Dataphin的计算引擎为MaxCompute,且数据研发过程中需要使用规范建模、即席查询、MaxCompute计算任务等功能,则在创建项目前需要完成MaxCompute计算源的创建,请参见新建MaxCompute计算源
  • Dataphin支持添加Hologres加速计算源至已绑定MaxCompute计算源的项目,加速数据服务的查询速度。如果您需要加速业务数据的查询速度,则在创建项目前需要创建加速计算源, 详情请参见创建加速计算源
  • Dataphin对接了机器学习PAI,为您提供了机器学习PAI基础的算法调度能力。在开始使用机器学习任务前,需要开通机器学习并已创建工作空间, 详情请参见开通并创建默认工作空间

使用限制

  • 系统支持超级管理员角色和板块管理员角色的账号创建项目。
  • 系统仅支持项目管理员和板块管理员角色的账号,关闭和开启数据表读写的权限申请。
如何获取板块管理员角色,请参见创建数据板块

操作流程

操作流程 描述
步骤一:选择项目类型 选择项目的模式为Basic模式。

完成项目的创建后,系统生成独立灵活的生产环境,数据生产过程相对稳定而便捷,生产的数据可管控。

步骤二:配置项目的计算源和名称 为项目配置计算源、英文名、名称和描述。
步骤三:配置项目的命名空间 配置项目的业务板块和空间类型。
步骤四:配置项目的沙箱白名单 配置项目中的Shell、Python任务可以访问的IP地址或域名。

您也可以通过信息设置添加沙箱白名单,请参见添加沙箱白名单

步骤五:配置项目的数据读写申请权限 Dataphin支持通过项目粒度的方式,管控项目中的元表和物理表的读取和写入数据的权限申请,以规避审批者误操作,导致的数据泄露与安全问题。

您也可以通过信息设置配置项目的数据读写申请权限,请参见设置数据读写申请权限

步骤一:选择项目类型

  1. 请参见入口介绍,进入数仓规划页面。
  2. 数仓规划页面,按照下图操作指引,进入新建项目对话框。
    gagaga
  3. 新建项目对话框,选择创建项目的模式为Basic模式
    gagaga
  4. 单击下一步

步骤二:配置项目的计算源和名称

新建项目对话框的项目设置区域,配置计算源参数。

根据Dataphin初始化的计算引擎不同,支持选择的计算源类型也不同,详细说明如下:
  • Dataphin初始化为MaxCompute,则需要选择计算源类型,支持选择的计算源类型包括MaxCompute、Flink、Hologres。
    说明 如果Dataphin初始化为MaxCompute,则需要选择计算源类型后,再配置计算源参数。
    gagag
    • MaxCompute:MaxCompute是一种快速、完全托管的TB或PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全,详情请参见MaxCompute
    • Flink:添加Flink计算源后,您可以在Dataphin中进行流式计算任务开发,详情请参见阿里云实时计算
    • Hologres:您可以创建计算源并添加至已绑定MaxCompute计算源的项目中,后续就可以对计算空间选择该项目的Dataphin数据源进行加速业务数据的查询速度,详情请参见什么是实时数仓Hologres
  • Dataphin初始化为AnalyticDB for PostgreSQL,则不需要选择计算源类型。gagaga
计算源的参数配置,详细说明如下。
参数 描述
机器学习
注意 仅计算源类型为MaxCompute的项目,支持开启机器学习。
Dataphin对接了机器学习PAI,为您提供了机器学习PAI基础的算法调度能力。在机器学习平台中,创建可视化建模的工作空间时,资源选择为基于MaxCompute的计算资源组,详情请参见资源管理概述
开启了机器学习后,需要配置以下参数:
  • PAI地域:选择和Dataphin实例所在地域。
  • AccessKey IDAccessKey Secret:配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。
  • PAI项目名称:选择PAI项目。

    建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。

计算源 选择您已创建相应计算源类型的计算源,项目创建成功后,不支持修改计算源。
注意
  • 已绑定项目的计算源,无法被其他项目再次绑定。
  • Dev项目和Prod项目的计算源需保持一致。
同步创建数据源 系统支持为项目绑定MaxCompute、AnalyticDB For PostgreSQL计算源时,且选中同步创建数据源后,Dataphin自动创建对应类型的数据源。创建数据源时配置的信息,请参见附录:同步创建数据源的机制说明
英文名 项目创建成功后,其英文名不支持修改。命名规则如下:
  • 包含字母、数字、下划线(_)。
  • 不能超过64个字符。
名称 命名规则如下:
  • 包含中文、数字、字母、下划线(_)、短划线(-)。
  • 不能超过64个字符。
描述 填写对Dev、Prod项目的描述。

步骤三:配置项目的命名空间

新建项目页面的命名空间区域,配置参数。dcf
参数 描述
业务板块 非必填写项。为新建项目选择所属的业务板块。
注意 如果您购买的Dataphin实例为基础研发版,则系统不支持业务板块。
空间类型 区分项目开发任务及产出数据特征,默认为应用层。空间类型包括3种:
  • 基础层:来自各个业务数据库的原始数据存储,是后续所有数据建设的来源与基础,也称为垂直数据中心。
  • 公共层:基于各业务数据,抽象公共的主题,沉淀标准、规范、可共用的数据,是连接基础层与应用层的中间桥梁,也称为公共数据中心。
  • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标等。
功能操作 默认为代码编辑、调度,不支持修改。

步骤四:配置项目的沙箱白名单

  1. 其他设置沙箱白名单区域,按照下图操作指引,添加该项目下输入Shell、Python任务需要访问的IP地址或域名。
    gaga
  2. 单击确定,Shell、Python任务可以访问对应的IP地址或域名。
    对于已添加的沙箱白名单,您也可以单击操作列下的gagag图标,删除后项目下的Shell、Python任务,将无法访问对应的IP地址或域名。

步骤五:配置项目的数据读写申请权限

  1. 其他设置对话框的通用功能控制区域,选择是否需要开启数据读写权限申请权限。
    dagfa
    开启或关闭数据写权限申请:
    • 关闭数据写权限申请后,当前项目下的物理表及元表不支持申请写入权限,同时Dataphin不收回已申请过的写入权限。
    • 开启数据写权限申请后,当前项目下的物理表及元表支持申请写入权限。申请写入权限的更多信息,请参见申请权限
    开启或关闭数据读权限申请:
    • 关闭数据读权限申请后,当前项目下物理表及元表不支持申请查询权限,同时Dataphin不收回已申请过的查询权限。
    • 开启数据读权限申请后,当前项目下的物理表及元表支持申请查询权限。申请查询权限的更多信息,请参见申请权限
  2. 单击确定,完成Prod项目和Dev项目的创建。

附录:同步创建数据源的机制说明

同步创建数据源时,系统自动配置的参数信息如下。
参数 描述
数据源类型 根据计算源类型配置为相应的数据源类型,包括MaxCompute或AnalyticDB For PostgreSQL。
数据源名称 默认配置为计算源名称。
数据源描述 默认配置为项目的描述。
数据源配置 默认选择为生产+开发数据源
开发数据源 需要配置EndpointProject NameAccess IDAccess Key参数,默认填写项目绑定的计算源的连接信息。
生产数据源 需要配置EndpointProject NameAccess IDAccess Key参数,默认填写项目绑定的计算源的连接信息。
同步创建数据源过程中,系统校验规则如下:
  • 数据源重名校验:如果已存在同名数据源,则数据源创建失败,项目创建不阻断。
  • 数据源测试连接:如果测试连接失败,则数据源创建失败,项目创建不阻断。

后续步骤

创建完项目后,即可进入工作区开始数据的研发。如何基于Dataphin开发数据,请参见数据开发faga