项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。在关注数据研发效率,且计算存储预算有限制的场景中,推荐您创建Basic模式的项目。Basic项目数据生产过程稳定且便捷。本文为您介绍如何创建Basic模式的项目。
背景信息
Dataphin支持两种开发模式的项目,详细说明见下表。
项目的模式 | 描述 |
---|---|
Dev-Prod模式 |
完成项目的创建后,系统默认生成了开发环境(Dev项目)和生产环境(Prod项目)。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。Dev-Prod项目的更多信息,请参见创建Prod和Dev项目。
![]() |
Basic模式 | 完成项目的创建后,系统默认生成了Basic项目(开发和生产一体的项目)。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。![]() 注意
|
前提条件
在开始执行操作前,请确认您以满足以下条件:
- 后续需要研发流批一体任务,则在创建项目前需要完成Flink计算源的创建,请参见新建Flink计算源。
- Dataphin的计算引擎为AnalyticDB for PostgreSQL,且数据研发过程中需要使用数据集成、即席查询、AnalyticDB for PostgreSQL的SQL计算任务等功能,则在创建项目前需要完成AnalyticDB for PostgreSQL计算源的创建,请参见新建AnalyticDB For PostgreSQL计算源。
- Dataphin的计算引擎为MaxCompute,且数据研发过程中需要使用规范建模、即席查询、MaxCompute计算任务等功能,则在创建项目前需要完成MaxCompute计算源的创建,请参见新建MaxCompute计算源。
- Dataphin支持添加Hologres加速计算源至已绑定MaxCompute计算源的项目,加速数据服务的查询速度。如果您需要加速业务数据的查询速度,则在创建项目前需要创建加速计算源, 详情请参见创建加速计算源。
- Dataphin对接了机器学习PAI,为您提供了机器学习PAI基础的算法调度能力。在开始使用机器学习任务前,需要开通机器学习并已创建工作空间, 详情请参见开通并创建默认工作空间。
使用限制
- 系统支持超级管理员角色和板块管理员角色的账号创建项目。
- 系统仅支持项目管理员和板块管理员角色的账号,关闭和开启数据表读写的权限申请。
操作流程
操作流程 | 描述 |
---|---|
步骤一:选择项目类型 | 选择项目的模式为Basic模式。
完成项目的创建后,系统生成独立灵活的生产环境,数据生产过程相对稳定而便捷,生产的数据可管控。 |
步骤二:配置项目的计算源和名称 | 为项目配置计算源、英文名、名称和描述。 |
步骤三:配置项目的命名空间 | 配置项目的业务板块和空间类型。 |
步骤四:配置项目的沙箱白名单 | 配置项目中的Shell、Python任务可以访问的IP地址或域名。
您也可以通过信息设置添加沙箱白名单,请参见添加沙箱白名单。 |
步骤五:配置项目的数据读写申请权限 | Dataphin支持通过项目粒度的方式,管控项目中的元表和物理表的读取和写入数据的权限申请,以规避审批者误操作,导致的数据泄露与安全问题。
您也可以通过信息设置配置项目的数据读写申请权限,请参见设置数据读写申请权限。 |
步骤一:选择项目类型
步骤二:配置项目的计算源和名称
在新建项目对话框的项目设置区域,配置计算源参数。
根据Dataphin初始化的计算引擎不同,支持选择的计算源类型也不同,详细说明如下:
- Dataphin初始化为MaxCompute,则需要选择计算源类型,支持选择的计算源类型包括MaxCompute、Flink、Hologres。
说明 如果Dataphin初始化为MaxCompute,则需要选择计算源类型后,再配置计算源参数。
- MaxCompute:MaxCompute是一种快速、完全托管的TB或PB级数据仓库解决方案,能够更快速为您解决海量数据计算问题,有效降低企业成本,并保障数据安全,详情请参见MaxCompute。
- Flink:添加Flink计算源后,您可以在Dataphin中进行流式计算任务开发,详情请参见阿里云实时计算。
- Hologres:您可以创建计算源并添加至已绑定MaxCompute计算源的项目中,后续就可以对计算空间选择该项目的Dataphin数据源进行加速业务数据的查询速度,详情请参见什么是实时数仓Hologres。
- Dataphin初始化为AnalyticDB for PostgreSQL,则不需要选择计算源类型。
参数 | 描述 |
---|---|
机器学习 |
注意 仅计算源类型为MaxCompute的项目,支持开启机器学习。
开启了机器学习后,需要配置以下参数:
|
计算源 | 选择您已创建相应计算源类型的计算源,项目创建成功后,不支持修改计算源。
注意
|
同步创建数据源 | 系统支持为项目绑定MaxCompute、AnalyticDB For PostgreSQL计算源时,且选中同步创建数据源后,Dataphin自动创建对应类型的数据源。创建数据源时配置的信息,请参见附录:同步创建数据源的机制说明。 |
英文名 | 项目创建成功后,其英文名不支持修改。命名规则如下:
|
名称 | 命名规则如下:
|
描述 | 填写对Dev、Prod项目的描述。 |
步骤三:配置项目的命名空间
在新建项目页面的命名空间区域,配置参数。

参数 | 描述 |
---|---|
业务板块 | 非必填写项。为新建项目选择所属的业务板块。
注意 如果您购买的Dataphin实例为基础研发版,则系统不支持业务板块。
|
空间类型 | 区分项目开发任务及产出数据特征,默认为应用层。空间类型包括3种:
|
功能操作 | 默认为代码编辑、调度,不支持修改。 |
步骤四:配置项目的沙箱白名单
步骤五:配置项目的数据读写申请权限
附录:同步创建数据源的机制说明
同步创建数据源时,系统自动配置的参数信息如下。
参数 | 描述 |
---|---|
数据源类型 | 根据计算源类型配置为相应的数据源类型,包括MaxCompute或AnalyticDB For PostgreSQL。 |
数据源名称 | 默认配置为计算源名称。 |
数据源描述 | 默认配置为项目的描述。 |
数据源配置 | 默认选择为生产+开发数据源。 |
开发数据源 | 需要配置Endpoint、Project Name、Access ID、Access Key参数,默认填写项目绑定的计算源的连接信息。 |
生产数据源 | 需要配置Endpoint、Project Name、Access ID、Access Key参数,默认填写项目绑定的计算源的连接信息。 |
同步创建数据源过程中,系统校验规则如下:
- 数据源重名校验:如果已存在同名数据源,则数据源创建失败,项目创建不阻断。
- 数据源测试连接:如果测试连接失败,则数据源创建失败,项目创建不阻断。
后续步骤
