创建标签项目

更新时间:
复制 MD 格式

项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。在进行标签开发前,您需要创建对应标签项目。本文为您介绍如何创建标签项目。

前提条件

  • 若您需进行规范建模研发,在创建标签项目前您需创建对应的数据板块。若不创建,则只可进行通用研发。数据板块创建详情请参见:创建数据板块

  • 创建标签项目前,您需完成对应的计算源创建。详情请参见:计算源

使用限制

  • Dataphin仅支持超级管理员、系统管理员、板块架构师角色的账号创建标签项目。

  • Dataphin仅支持项目超级管理员、系统管理员、板块架构师角色的账号,具备关闭和开启数据表读写的权限申请。

步骤一:选择项目类型

  1. Dataphin首页,单击顶部菜单栏的规划

  2. 数仓规划页面,按照下图操作指引,进入新建标签项目对话框。

    image

步骤二:配置项目的归属板块和基本信息

  1. 新建项目对话框中配置标签项目的归属板块基本信息业务信息参数。

    说明

    标签项目为Prod环境,等价于Prod项目,因数据研发流程差异,称为Basic标签项目。项目内可以编辑开发并提交数据对象、提交即可更新至生产调度及监控运维。

    区域

    参数名称

    描述

    归属板块

    数据板块

    选择项目所属的数据板块。选择归属板块后,即可进行规范建模研发工作。若不选择,则只可进行通用研发工作。

    说明

    若数据板块为Dev-Prod模式,归属Prod业务板块的Basic项目中不可以构建规范建模对象,仅可以构建基础层、应用层数据,以免公共层数据标准规范性受影响、数据生产异常。

    基本信息

    项目英文名

    填写项目的英文名。命名规则如下:

    • 包含字母、数字、下划线(_)

    • 不支持以LD_开头。

    • 不能超过64个字符。

    项目名称

    填写项目的名称。命名规则如下:

    • 包含汉字、数字、字母、下划线(_)或短划线(-)。

    • 不能超过64字符。

    计算源类型

    选择计算源类型后选择对应的计算源。

    重要
    • 已绑定项目的计算源,无法被其他项目再次绑定。

    Dataphin对接了人工智能平台PAI,为您提供了PAI基础的算法调度能力。在机器学习平台中,创建可视化建模的工作空间时,资源选择为基于MaxCompute的计算资源组,详情请参见资源管理概述。如果您开启了机器学习,需要配置以下参数。

    • PAI地域:选择Dataphin实例所在地域。

    • AccessKey IDAccessKey Secret:配置成需要访问PAI账号的AccessKey ID、AccessKey Secret。

    • PAI项目名称:选择PAI项目。

    • 建议当前Dataphin项目绑定的MaxCompute项目与PAI绑定的MaxCompute项目保持一致。

    描述信息

    填写对项目的简单描述。

    业务信息

    空间类型

    区分项目开发任务及产出数据特征,默认为应用层。空间类型包括4种:

    • 中间层:通常用于储存数据进行加工后,一致的、准确的、干净的数据。

    • 贴源层:通常用来储存从业务系统中集成的原始数据,为后续的加工与开发作为数据的来源。

    • 应用层:面向业务需求,定义生成可应用于不同场景的个性化、多样化的数据指标。

    • 通用层:通常用来储存通用的汇总数据。如某个主题域下某个维度的汇总数据。

    安全设置

    全局安全设置

    安全设置是您可以对数据安全及访问进行精细化控制、对Spark任务的开关及鉴权模式的设置,来保障数据的安全性。更多信息,请参见安全设置

    数据结果下载(下载审批)

    Dataphin支持业务数据下载,您可对项目级数据是否可下载进行配置;数据在下载后脱离系统的管控,您可设置水印,以提醒注意数据安全,避免随意分享。更多信息,请参见数据下载配置

    重要

    系统仅支持非访客角色的用户下载数据结果至本地。

    数据权限审批

    数据权限审批策略可根据不同的数据等级指定不同的审批规则,能使审批人员着重于高敏感数据,对于公开的数据,可免除审批,从而降低权限审批的负担。更多信息,请参见数据权限配置

    资产安全策略

    安装后可使用数据安全策略,保护敏感数据。可于治理 > 数据安全 > 项目安全策略模块进行修改。更多信息,请参见项目安全策略

    提交设置

    代码审核

    默认关闭,开启后还需配置代码审核人。代码审核开启后,该项目下的计算任务在提交时需进行代码审核。

    代码审核人默认选中项目管理员,并支持自定义选择多个成员进行审批。

    任务参数配置

    Flink任务默认参数配置

    开启实时引擎后,您可在文本框输入Flink相关参数配置。后续创建该项目下的Flink任务时,将默认配置该参数信息。参数格式必须为键值对格式:key:value。如:taskmanager.numberOfTaskSlots:1

  2. 单击确定,即可完成标签项目的创建。

单租户多引擎

多引擎模式下项目英文名、项目名称、板块空间、安全设置、提交设置、任务参数配置同单引擎模式,详情请参见上文。同时还需配置引擎设置

参数

描述

引擎设置

离线计算

可开启或关闭离线计算,开启后需选择离线引擎类型离线计算源,关闭后此项目不支持创建离线计算任务。

  • 离线引擎类型:可选择已创建的离线计算源对应集群的类型,共包含以下类型:

    • MaxCompute

    • CDH 5.x

    • CDH 6.x

    • Cloudera Data Platform 7.x

    • 华为FusionInsight 8.x

    • Aliyun EMR 5.x

    • 星环TDH 6.x

    • 星环TDH 9.3.x

    • 星环ArgoDB

    • Lindorm(计算引擎)

    编辑项目时,不可修改离线引擎类型。

  • 离线计算源:可选择所选离线引擎类型相同的离线计算源。

实时计算

可开启或关闭实时计算,开启后需选择实时计算引擎,可选项中包含已创建的实时计算源对应集群的类型,关闭后项目不支持创建实时计算任务。编辑项目时,不可修改实时引擎类型。

  • 选择FlinkFusionInsight Flink:还需选择流处理计算源。

  • 选择Ververica Flink:可选中批处理可选择其他计算源,流批一体任务默认为同一计算源,开启后可为流处理任务和批处理任务配置不同计算源。

项目默认资源组

该项目下创建的任务默认使用此处配置的项目默认资源组进行调度,仅在项目已开启离线计算引擎时支持配置。您也可以在任务配置时自定义修改单个任务对应的资源组。

  • 仅支持选择资源组状态为正常、使用场景包含任务日常调度且和当前项目有关联关系的资源组

  • 此处修改了默认资源组之后,调度资源组配置为项目默认资源组的任务,会自动跟随更新所使用的资源组。如果您不希望自动更新,请为任务指定单独的自定义资源组,请参见计算任务资源配置

说明
  • 仅在租户已开启自定义资源组功能时支持配置。详情请参见资源组概述

  • 使用当前租户的公共调度资源组,即租户默认资源组。调度高峰期可能出现资源抢占的情况。

描述信息

填写对项目的简单描述,不超过128个字符。

后续步骤

完成标签项目的创建后,在创建市场时您可将该项目绑定到对应的市场。详情请参见:创建市场