如何创建Dataphin通用项目-智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

项目是Dataphin的基本组织单元，是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后，需要通过项目使用Dataphin。本文为您介绍如何创建项目。

前提条件

在开始执行操作前，请确认您已满足以下条件：

如果您需要研发流批一体任务，您需要根据业务需求选择支持流批一体的计算源并进行新建。具体操作，请参见：
如果您选择的Dataphin计算引擎为MaxCompute，且数据研发过程中需要使用规范建模、即席查询、MaxCompute SQL计算任务等功能，则在创建项目空间前需要完成MaxCompute计算源的创建。具体操作，请参见新建MaxCompute计算源。
同时，当您的计算引擎选择为MaxCompute时，您还可以创建Hologres计算源。Hologres计算源绑定项目后您可使用即席查询、HOLOGRES_SQL计算任务等功能。具体操作，请参见创建Hologres计算源。
如果您选择的Dataphin的计算引擎为Hadoop，且数据研发过程中需要使用规范建模、即席查询、Hive SQL计算任务等功能，则在创建项目空间前需要完成Hadoop计算源的创建。具体操作，请参见创建Hadoop计算源。
如果您选择的Dataphin的计算引擎为星环TDH，且数据研发过程中需要使用规范建模、即席查询、INCEPTOR_SQL计算任务等功能，则在创建项目空间前需要完成TDH Inceptor计算源的创建。具体操作，请参见创建TDH Inceptor计算源。
如果您选择的Dataphin的计算引擎为ArgoDB，且数据研发过程中需要使用即席查询、ARGODB_SQL计算任务等功能，则在创建项目空间前需要完成ArgoDB计算源的创建。具体操作，请参见新建ArgoDB计算源。
如果您选择的Dataphin的计算引擎为StarRocks，且数据研发过程中需要使用即席查询、STARROCKS_SQL计算任务等功能，则在创建项目空间前需要完成StarRocks计算源的创建。具体操作，请参见创建StarRocks计算源。
如果您选择的Dataphin的计算引擎为Amazon EMR，且数据研发过程中需要使用即席查询、计算任务等功能，则在创建项目空间前需要完成StarRocks计算源的创建。具体操作，请参见创建Amazon EMR计算源。
如果您选择的Dataphin的计算引擎为SelectDB/Doris，且数据研发过程中需要使用即席查询、SELECTDB_SQL/DORIS_SQL计算任务等功能，则在创建项目空间前需要完成SelectDB/Doris计算源的创建。具体操作，请参见创建SelectDB或Doris计算源。

背景信息

Dataphin支持以下两种开发模式的项目：

Dev-Prod模式：完成项目的创建后，系统默认生成了开发环境（Dev项目）和生产环境（Prod项目）。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强，数据研发人员较多且能力及分工明确，数据计算存储预算较高，推荐此模式。
Basic模式：完成项目的创建后，系统默认生成了Basic项目（开发和生产一体的项目）。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率，研发人员职能边界模糊，计算存储预算有限制，推荐此模式。

权限说明

超级管理员、系统管理员、板块架构师支持创建项目。
超级管理员、系统管理员、板块架构师支持关闭、开启数据表读写的权限申请。

操作步骤

在Dataphin首页的顶部菜单栏中，选择规划 > 项目。
在项目管理页面，单击新建通用项目，进入新建项目对话框。
在新建项目对话框中，选择Dev-Prod模式或Basic模式后，单击下一步。
重要
Basic模式不支持升级为Dev-Prod模式，且Basic模式存在直接变更生产风险，请您谨慎选择。
如果选择了Basic模式，请您谨慎管理项目成员，以控制数据生产的稳定性。

在新建项目对话框中，配置参数。

Dev-Prod模式和Basic模式需要配置的参数相同，下面以Dev-Prod模式为例。

参数		描述
归属板块	数据板块	选择项目所属的数据板块。
基本信息	公用英文名	填写项目的公用英文名。命名规则如下：包含字母、数字、下划线（_）不支持以LD_开头。不能超过64个字符。开发环境项目英文名默认以_dev作为后缀。说明当计算引擎为MaxCompute时，建议项目的公用英文名与对应的MaxCompute项目名一致。
	公用名称	填写项目的公用名称。命名规则如下：包含中文、数字、字母、下划线（_）或短划线（-）。不支持以LD_开头。不能超过64个字符。
	计算源类型	选择计算源类型后选择对应的计算源。重要已绑定项目的计算源，无法被其他项目再次绑定。 Dev项目和Prod项目的计算源需保持一致。当Dataphin计算引擎初始化为MaxCompute时，离线引擎可选择MaxCompute或Hologres。若选择MaxCompute，则还支持开启机器学习PAI。 Dataphin对接了人工智能平台PAI，为您提供了人工智能平台PAI基础的算法调度能力。在人工智能平台中，创建可视化建模的工作空间时，资源选择为基于MaxCompute的计算资源组，详情请参见人工智能平台 PAI的AI计算资源组概述。如果您开启了人工智能平台，需要配置以下参数。 PAI地域：选择和Dataphin实例所在地域。访问方式：选择人工智能平台PAI的访问方式。支持VPC和公网访问方式。 AccessKey ID、AccessKey Secret：配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。 PAI项目名称：选择PAI项目。建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。当离线引擎选择StarRocks，且该引擎来自于External catalog下的DataBase，则暂不支持规范建模、数据集成写入，以及即席查询结果的完整数据下载。
	项目默认资源组	该项目下创建的任务默认使用此处配置的项目默认资源组进行调度，仅在项目已开启离线计算引擎时支持配置。您也可以在任务配置时自定义修改单个任务对应的资源组。仅支持选择资源组状态为正常、使用场景包含任务日常调度且和当前项目有关联关系的资源组。此处修改了默认资源组之后，调度资源组配置为项目默认资源组的任务，会自动跟随更新所使用的资源组。如果您不希望自动更新，请为任务指定单独的自定义资源组，请参见计算任务资源配置。说明仅在租户已开启自定义资源组功能时支持配置。详情请参见资源组概述。使用当前租户的公共调度资源组，即租户默认资源组。调度高峰期可能出现资源抢占的情况。
	描述信息	填写对项目的简单描述，不超过128个字符。
业务信息	空间类型	区分项目开发任务及产出数据特征，默认为应用层。空间类型包括四种：中间层：通常用于存储数据并进行加工，提供一致的、准确的、干净的数据。贴源层：通常用来储存从业务系统中集成的原始数据，为后续的加工与开发提供数据的来源。应用层：面向业务需求，定义生成可应用于不同场景的个性化、多样化的数据指标。通用层：通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。
安全设置	全局安全设置	安全设置是您可以对数据安全及访问进行精细化控制、对Spark任务的开关及鉴权模式的设置，来保障数据的安全性。更多信息，请参见安全设置。
	数据结果下载（下载审批）	Dataphin支持业务数据下载，您可对项目级数据是否可下载进行配置；数据在下载后脱离系统的管控，您可设置水印，以提醒注意数据安全，避免随意分享。更多信息，请参见数据下载配置。重要系统仅支持非访客角色的用户下载数据结果至本地。
	数据权限审批	数据权限审批策略可根据不同的数据等级指定不同的审批规则，能使审批人员着重于高敏感数据，对于公开的数据，可免除审批，从而降低权限审批的负担。更多信息，请参见数据权限配置。
	资产安全策略	安装后可使用数据安全策略，保护敏感数据。可于治理 > 数据安全 > 项目安全策略模块进行修改。更多信息，请参见项目安全策略。
提交设置	代码审核	默认关闭，开启后还需配置代码审核人。代码审核开启后，该项目下的计算任务在提交时需进行代码审核。代码审核人默认选中项目管理员，并支持自定义选择多个成员进行审批。
发布设置	发布审批	开启后配置审批设置，该项目下的对象发布流程必须经过发布审批。指定审批人：任一审批人同意即通过，任一审批人驳回即终止。可选择项目管理员和自定义。选中自定义后，还需选择一个或至多10个审批人。指定审批模板：根据所选审批模板进行审批。若没有适用模板可单击+新增模板，跳转至审批模板页面中新建模板。详情请参见创建和管理审批模板。
任务参数配置	Flink任务默认参数配置	开启实时引擎后，您可在文本框输入Flink相关参数配置。后续创建该项目下的Flink任务时，将默认配置该参数信息。参数格式必须为键值对格式：`key:value`。如：taskmanager.numberOfTaskSlots:1。
更多设置	默认功能菜单	选择该项目所归属的数据板块后，系统将根据您所选的空间类型默认勾选对应的功能菜单。您可根据您的业务需求进行勾选修改。说明选择Hologres计算引擎时，不支持默认功能菜单。
更多设置	生产环境周期性调度说明 Basic项目为周期性调度。	开启，任务自动调度：开启时，该项目下的周期性任务新生成的实例状态将与任务状态一致（历史实例无影响）。关闭，任务暂停调度：关闭后，该项目下的周期性任务新生成的实例将置为暂停状态（历史实例无影响）。关闭周期性调度可能造成严重后果，请谨慎操作。说明 Dev环境下的实例状态会默认从未运行变更为暂停。

单击确定，即可完成项目创建。

单租户多引擎

多引擎模式下公共英文名、公共名称、安全设置、提交设置、发布设置、任务参数配置、更多设置同单引擎模式，详情请参见上文。同时还需配置引擎设置和板块空间。

参数		描述
引擎设置	离线计算	可开启或关闭离线计算，开启后需选择离线引擎类型和离线计算源，关闭后此项目不支持离线计算任务。离线引擎类型：可选择已创建的离线计算源对应集群的类型。编辑项目时，不可修改离线引擎类型。离线计算源：可选择所选离线引擎类型相同的离线计算源。
	实时计算	可开启或关闭实时计算，开启后需选择实时计算引擎，可选项中包含已创建的实时计算源对应集群的类型，关闭后项目不支持实时计算任务。编辑项目时，不可修改实时引擎类型。选择Flink或FusionInsight Flink：还需选择流处理计算源。选择Ververica Flink：可选中批处理可选择其他计算源，流批一体任务默认为同一计算源，开启后可为流处理任务和批处理任务配置不同计算源。
	机器学习	离线引擎类型选择MaxCompute时，支持开启或关闭机器学习。开启机器学习后，默认选中PAI，同时还需要配置以下参数。 PAI地域：选择和Dataphin实例所在地域。访问方式：选择人工智能平台PAI的访问方式。支持VPC网络和公网访问方式。 AccessKey ID、AccessKey Secret：配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。 PAI项目名称：选择PAI项目。建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。
	项目默认资源组	该项目下创建的任务默认使用此处配置的项目默认资源组进行调度，仅在项目已开启离线计算引擎时支持配置。您也可以在任务配置时自定义修改单个任务对应的资源组。仅支持选择资源组状态为正常、使用场景包含任务日常调度且和当前项目有关联关系的资源组。此处修改了默认资源组之后，调度资源组配置为项目默认资源组的任务，会自动跟随更新所使用的资源组。如果您不希望自动更新，请为任务指定单独的自定义资源组，请参见计算任务资源配置。说明仅在租户已开启自定义资源组功能时支持配置。详情请参见资源组概述。使用当前租户的公共调度资源组，即租户默认资源组。调度高峰期可能出现资源抢占的情况。
	描述信息	填写对项目的简单描述，不超过128个字符。
板块空间	数据板块	选择项目所属的数据板块。
板块空间	空间类型	区分项目开发任务及产出数据特征，默认为应用层。空间类型包括四种：中间层：通常用于存储数据并进行加工，提供一致的、准确的、干净的数据。贴源层：通常用来储存从业务系统中集成的原始数据，为后续的加工与开发提供数据的来源。应用层：面向业务需求，定义生成可应用于不同场景的个性化、多样化的数据指标。通用层：通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。

后续步骤

创建完项目后，即可进入数据研发模块进行数据开发。更多信息，请参见数据开发概述。