文档

创建通用项目

更新时间:

项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。本文为您介绍如何创建项目。

背景信息

Dataphin支持以下两种开发模式的项目:

  • Dev-Prod模式:完成项目的创建后,系统默认生成了开发环境(Dev项目)和生产环境(Prod项目)。Prod项目保障了生产环境项目中的数据安全。如果您管理诉求较强,数据研发人员较多且能力及分工明确,数据计算存储预算较高,推荐此模式。

  • Basic模式:完成项目的创建后,系统默认生成了Basic项目(开发和生产一体的项目)。Basic项目的数据生产过程稳定且便捷。如果您关注数据研发效率,研发人员职能边界模糊,计算存储预算有限制,推荐此模式。

    重要

    Basic模式不支持升级为Dev-Prod模式,且Basic模式存在直接变更生产风险,请您谨慎选择。

    如果选择了Basic模式,请您谨慎管理项目成员,以控制数据生产的稳定性。

前提条件

在开始执行操作前,请确认您已满足以下条件:

  • 如果您需要研发流批一体任务,您需要根据业务需求选择支持流批一体的计算源并进行新建。具体操作,请参见:

  • 如果您选择的Dataphin的计算引擎为MaxCompute,且数据研发过程中需要使用规范建模、即席查询、MaxCompute SQL计算任务等功能,则在创建项目空间前需要完成MaxCompute计算源的创建。具体操作,请参见新建MaxCompute计算源

  • Dataphin支持添加Hologres加速计算源至已绑定MaxCompute计算源的项目,加速数据服务的查询速度。如果您需要加速业务数据的查询速度,则在创建项目空间前需要创建加速计算源。具体操作,请参见创建加速计算源

  • 如果您选择的Dataphin的计算引擎为Hologres,且数据研发过程中需要使用即席查询、Hologres SQL计算任务等功能,则在创建项目空间前需要完成Hologres计算源的创建。具体操作,请参见创建Hologres计算源

使用限制

  • 系统支持超级管理员、系统管理员、板块架构师角色的账号创建项目。

  • 系统仅支持超级管理员、系统管理员、板块架构师角色的账号,具备关闭和开启数据表读写的权限申请。

  • 若您项目中需要关联PAI创建对应的调度任务,则需将PAI-Studio升级为PAI-Designer,将旧版控制台Studio中的实验一键迁移至新版Designer中,如何升级,请参见迁移Studio实验至Designer

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的规划

  2. 按照下图操作指引,进入新建项目对话框。

    依次单击项目管理->+新建项目

    image.png

  3. 新建项目对话框,选择所需创建的项目模式并单击下一步

  4. 新建项目对话框的归属板块基本信息区域,配置参数。Dev-Prod模式Basic模式需要配置的参数相同,以Dev-Prod模式为例。

    参数名称

    描述

    归属板块

    数据板块

    选择项目所属的数据板块。

    基本信息

    公用英文名

    填写项目的公用英文名。命名规则如下:

    • 包含字母、数字、下划线(_)

    • 不支持以LD_开头。

    • 不能超过64个字符。

    开发环境项目英文名默认以_dev作为后缀。

    计算引擎为MaxCompute时,建议项目的公用英文名与对应的MaxCompute项目名一致。

    公用名称

    填写项目的公用名称。命名规则如下:

    • 包含汉字、数字、字母、下划线(_)或短划线(-)。

    • 不支持以LD_开头。

    • 不能超过64个字符。

    计算源类型

    选择计算源类型后选择对应的计算源。

    重要
    • 已绑定项目的计算源,无法被其他项目再次绑定。

    • Dev项目和Prod项目的计算源需保持一致。

    根据Dataphin初始化的计算引擎不同,支持选择的计算源类型也不同,详细说明如下:

    • Dataphin计算引擎初始化为MaxCompute,则需要选择计算源类型,支持选择的离线引擎包括MaxCompute、Hologres;支持的实时引擎包括Alibaba Blink、Ververica Flink。当离线计算引擎为MaxCompute时,支持使用Hologres作为查询加速引擎和配置机器学习PAI。

      说明

      1个Hologres引擎仅支持1个场景(服务或离线引擎)/项目。

      Dataphin对接了机器学习PAI,为您提供了机器学习PAI基础的算法调度能力。在机器学习平台中,创建可视化建模的工作空间时,资源选择为基于MaxCompute的计算资源组,详情请参见人工智能平台 PAI的AI计算资源组概述。如果您开启了机器学习,需要配置以下参数。

      • PAI地域:选择和Dataphin实例所在地域。

      • 访问方式:选择机器学习PAI的访问方式。支持VPC公网访问方式。

      • AccessKey IDAccessKey Secret:配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。

      • PAI项目名称:选择PAI项目。

        建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。

    项目默认资源组

    该项目下创建的任务默认使用此处配置的项目默认资源组进行调度,仅支持项目已开启离线计算引擎时支持配置。您也可以在任务配置时自定义修改单个任务对应的资源组。

    • 仅支持选择资源组状态为正常、使用场景包含任务日常调度且和当前项目有关联关系的资源组

    • 此处修改了默认资源组之后,调度资源组配置为项目默认资源组的任务,会自动跟随更新所使用的资源组。如果您不希望自动更新,请为任务指定单独的自定义资源组,请参见计算任务资源配置

    描述信息

    填写对项目的简单描述,128个字符以内。

    业务信息

    空间类型

    区分项目开发任务及产出数据特征,默认为应用层。空间类型包括4种:

    • 中间层:通常用于储存数据进行加工后,一致的、准确的、干净的数据。

    • 贴源层:通常用来储存从业务系统中集成的原始数据,为后续的加工与开发作为数据的来源。

    • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。

    • 通用层:通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。

    安全设置

    沙箱白名单

    可添加该项目下集成任务用到的数据源、Shell、Python任务需要访问的IP地址或域名。

    image.png

    • 访问地址:项目中任务需要访问的地址信息。

    • 端口:填写需要访问地址的端口信息,支持通配符(*)。

    • 描述:填写访问地址的简单描述。

    说明

    对于已添加的沙箱白名单,您也可以单击操作列下的gagag图标,删除后项目空间下的成任务用到的数据源、Shell、Python任务,将无法访问对应的IP地址或域名。

    全局安全设置

    安全设置是您可以对数据安全及访问进行精细化控制、对Spark任务的开关及鉴权模式的设置,来保障数据的安全性。更多信息,请参见安全设置

    数据结果下载(下载审批)

    Dataphin支持业务数据下载,您可对项目级数据是否可下载进行配置;数据在下载后脱离系统的管控,您可设置水印,以提醒注意数据安全,避免随意分享。更多信息,请参见数据下载配置

    重要

    系统仅支持非访客角色的用户下载数据结果至本地。

    数据权限审批

    数据权限审批策略可根据不同的数据等级指定不同的审批规则,能使审批人员着重于高敏感数据,对于公开的数据,可免除审批,从而降低权限审批的负担。更多信息,请参见数据权限配置

    资产安全策略

    安装后可使用数据安全策略,保护敏感数据。可于安全-项目安全策略模块进行修改。更多信息,请参见项目安全策略

    发布设置

    发布审批

    开启后,该项目下的对象发布流程必须走发布审批。

    image..png

    • 审批人:该项目下有对象发布时由谁进行审批。自定义审批人至多选择10人,不含项目管理员。

    • 审批策略:Dataphin目前仅支持并行审批,默认勾选,不可修改。审批时任一审批人同意即通过,任一审批人驳回即终止。

    任务参数配置

    Flink任务默认参数配置

    • 开启实时引擎后,您可在文本框输入Flink相关参数配置。后续创建该项目下的Flink任务时,将默认配置该参数信息。

    • 参数格式必须为键值对格式:key:value。如:taskmanager.numberOfTaskSlots:1。

    更多设置

    默认功能菜单

    选择该项目所归属的数据板块后,系统将根据您所选的空间类型默认勾选对应的功能菜单。您可根据您的业务需求进行勾选修改。

    说明

    选择Hologres计算引擎时,不支持默认功能菜单。

    生产环境周期性调度

    说明

    Basic项目为周期性调度

    开启,任务自动调度:开启时,该项目下的周期性任务新生成的实例状态将与任务状态一致(历史实例无影响)。

    关闭,任务暂停调度:关闭后,该项目下的周期性任务新生成的实例将置为暂停状态(历史实例无影响)。关闭周期性调度可能造成严重后果,请谨慎操作。

    说明

    Dev环境下的实例状态会默认从“未运行”变更为“暂停”。

  5. 单击确定,即可完成项目创建。

后续步骤

创建完项目后,即可进入数据研发模块进行数据开发。更多信息,请参见数据开发概述