项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。本文为您介绍如何创建项目。
前提条件
在开始执行操作前,请确认您已满足以下条件:
如果您需要研发流批一体任务,您需要根据业务需求选择支持流批一体的计算源并进行新建。具体操作,请参见:
如果您选择的Dataphin的计算引擎为MaxCompute,且数据研发过程中需要使用规范建模、即席查询、MaxCompute SQL计算任务等功能,则在创建项目空间前需要完成MaxCompute计算源的创建。具体操作,请参见新建MaxCompute计算源。
如果您选择的Dataphin的计算引擎为Hologres,且数据研发过程中需要使用即席查询、Hologres SQL计算任务等功能,则在创建项目空间前需要完成Hologres计算源的创建。具体操作,请参见创建Hologres计算源。
背景信息
Dataphin支持以下两种开发模式的项目:
Dev-Prod模式:完成项目的创建后,系统默认生成了开发环境(Dev项目)和生产环境(Prod项目)。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。
Basic模式:完成项目的创建后,系统默认生成了Basic项目(开发和生产一体的项目)。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。
重要Basic模式不支持升级为Dev-Prod模式,且Basic模式存在直接变更生产风险,请您谨慎选择。
如果选择了Basic模式,请您谨慎管理项目成员,以控制数据生产的稳定性。
使用限制
若您项目中需要关联PAI创建对应的调度任务,则需将PAI-Studio升级为Designer,将旧版控制台Studio中的实验一键迁移至新版Designer中,如何升级,请参见迁移Studio实验至Designer。
权限说明
超级管理员、系统管理员、板块架构师支持创建项目。
超级管理员、系统管理员、板块架构师支持关闭、开启数据表读写的权限申请。
操作步骤
在Dataphin首页,单击顶部菜单栏的规划 > 项目。
在项目管理页面,单击新建通用项目,进入新建项目对话框。
在新建项目对话框,选择所需创建的项目模式并单击下一步。
在新建项目对话框中,配置参数。Dev-Prod模式和Basic模式需要配置的参数相同,下面以Dev-Prod模式为例。
参数
描述
归属板块
数据板块
选择项目所属的数据板块。
基本信息
公用英文名
填写项目的公用英文名。命名规则如下:
包含字母、数字、下划线(_)
不支持以LD_开头。
不能超过64个字符。
开发环境项目英文名默认以_dev作为后缀。
计算引擎为MaxCompute时,建议项目的公用英文名与对应的MaxCompute项目名一致。
公用名称
填写项目的公用名称。命名规则如下:
包含中文、数字、字母、下划线(_)或短划线(-)。
不支持以LD_开头。
不能超过64个字符。
计算源类型
选择计算源类型后选择对应的计算源。
重要已绑定项目的计算源,无法被其他项目再次绑定。
Dev项目和Prod项目的计算源需保持一致。
根据Dataphin初始化的计算引擎不同,支持选择的计算引擎类型也不同,详细说明如下:
Dataphin计算引擎初始化为MaxCompute时,需要选择计算引擎类型,支持选择的离线引擎包括MaxCompute、Hologres;支持的实时引擎包括Alibaba Blink、Ververica Flink。当离线计算引擎为MaxCompute时,支持使用Hologres配置人工智能平台PAI。
Dataphin对接了人工智能平台PAI,为您提供了人工智能平台PAI基础的算法调度能力。在人工智能平台中,创建可视化建模的工作空间时,资源选择为基于MaxCompute的计算资源组,详情请参见人工智能平台 PAI的AI计算资源组概述。如果您开启了人工智能平台,需要配置以下参数。
PAI地域:选择和Dataphin实例所在地域。
访问方式:选择人工智能平台PAI的访问方式。支持VPC和公网访问方式。
AccessKey ID、AccessKey Secret:配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。
PAI项目名称:选择PAI项目。
建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。
项目默认资源组
该项目下创建的任务默认使用此处配置的项目默认资源组进行调度,仅支持项目已开启离线计算引擎时支持配置。您也可以在任务配置时自定义修改单个任务对应的资源组。
仅支持选择资源组状态为正常、使用场景包含任务日常调度且和当前项目有关联关系的资源组。
此处修改了默认资源组之后,调度资源组配置为项目默认资源组的任务,会自动跟随更新所使用的资源组。如果您不希望自动更新,请为任务指定单独的自定义资源组,请参见计算任务资源配置。
说明仅支持租户已开启自定义资源组功能时支持配置。详情请参见资源组概述。
使用当前租户的公共调度资源组,即租户默认资源组。调度高峰期可能出现资源抢占的情况。
描述信息
填写对项目的简单描述,不超过128个字符。
业务信息
空间类型
区分项目开发任务及产出数据特征,默认为应用层。空间类型包括四种:
中间层:通常用于存储数据并进行加工,提供一致的、准确的、干净的数据。
贴源层:通常用来储存从业务系统中集成的原始数据,为后续的加工与开发作为数据的来源。
应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。
通用层:通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。
安全设置
沙箱白名单
可添加该项目下集成任务用到的数据源、Shell、Python任务需要访问的IP地址或域名。
访问地址:项目中任务需要访问的地址信息。
端口:填写需要访问地址的端口信息,支持通配符(*)。
描述:填写访问地址的简单描述。
说明对于已添加的沙箱白名单,您也可以单击操作列下的图标,删除后项目空间下的成任务用到的数据源、Shell、Python任务,将无法访问对应的IP地址或域名。
全局安全设置
安全设置是您可以对数据安全及访问进行精细化控制、对Spark任务的开关及鉴权模式的设置,来保障数据的安全性。更多信息,请参见安全设置。
数据结果下载(下载审批)
Dataphin支持业务数据下载,您可对项目级数据是否可下载进行配置;数据在下载后脱离系统的管控,您可设置水印,以提醒注意数据安全,避免随意分享。更多信息,请参见数据下载配置。
重要系统仅支持非访客角色的用户下载数据结果至本地。
数据权限审批
数据权限审批策略可根据不同的数据等级指定不同的审批规则,能使审批人员着重于高敏感数据,对于公开的数据,可免除审批,从而降低权限审批的负担。更多信息,请参见数据权限配置。
资产安全策略
安装后可使用数据安全策略,保护敏感数据。可于治理 > 数据安全 > 项目安全策略模块进行修改。更多信息,请参见项目安全策略。
发布设置
发布审批
开启后,该项目下的对象发布流程必须经过发布审批。
审批人:该项目下有对象发布时由谁进行审批。自定义审批人至多选择10人,不含项目管理员。
审批策略:Dataphin目前仅支持并行审批,默认勾选,不可修改。审批时任一审批人同意即通过,任一审批人驳回即终止。
任务参数配置
Flink任务默认参数配置
开启实时引擎后,您可在文本框输入Flink相关参数配置。后续创建该项目下的Flink任务时,将默认配置该参数信息。
参数格式必须为键值对格式:
key:value
。如:taskmanager.numberOfTaskSlots:1。
更多设置
默认功能菜单
选择该项目所归属的数据板块后,系统将根据您所选的空间类型默认勾选对应的功能菜单。您可根据您的业务需求进行勾选修改。
说明选择Hologres计算引擎时,不支持默认功能菜单。
生产环境周期性调度
说明Basic项目为周期性调度。
开启,任务自动调度:开启时,该项目下的周期性任务新生成的实例状态将与任务状态一致(历史实例无影响)。
关闭,任务暂停调度:关闭后,该项目下的周期性任务新生成的实例将置为暂停状态(历史实例无影响)。关闭周期性调度可能造成严重后果,请谨慎操作。
说明Dev环境下的实例状态会默认从未运行变更为暂停。
单击确定,即可完成项目创建。
后续步骤
创建完项目后,即可进入数据研发模块进行数据开发。更多信息,请参见数据开发概述。