新建项目空间并引入资源

本文为您介绍如何创建数据工作站项目空间、添加资源并配置代码存储空间。

步骤一:创建并进入项目空间

  1. 登录数据管理DMS 5.0
  2. 单击控制台左上角的2023-01-28_15-57-17.png图标,选择全部功能 > 集成与开发 > Notebook

    说明

    若您使用的是非极简模式的控制台,请在顶部菜单栏中,选择集成与开发 > Notebook

  3. 单击新建项目空间,在对话框中填入项目空间名地域等信息,单击确认

    说明
    • 项目空间名称由英文字母、数字或下划线(_)组成。

    • 目前项目空间地域支持选择华东1(杭州)、华北2(北京)、华东2(上海)。

  4. 单击操作列的进入空间,进入目标项目空间。

    说明

    默认只有项目创建人有权进入该项目空间。如果需要进行协作开发,请项目创建人在该项目中为目标用户添加开发权限。

步骤二:添加项目成员

如果项目空间有多个用户参与,则需要给用户授予不同的项目空间角色。

待分配角色的用户要求已录入DMS。具体操作,请参见用户管理

image

步骤三:配置代码存储空间

  1. 进入项目空间后,在项目设置image页签内,单击存储配置

  2. 存储配置页面,单击代码空间右侧的image图标。

  3. 选择OSS目录对话框中,选择目标Bucket

    选择的Bucket必须与当前项目空间所在地域一致,且Bucket的存储类型必须为标准存储。

    说明

    若当前Region下没有可用的Bucket,请前往OSS控制台创建。具体操作,请参见创建存储空间

  4. 单击确定

步骤四:添加资源

添加并启动资源后,您才可以使用Notebook进行数据查询和分析。

  1. 进入项目空间后,在项目设置image页签内,单击资源配置

  2. 单击添加资源,配置资源的相关信息。

    参数

    说明

    资源名称

    填写易于理解和使用的名称。

    资源简介

    填写该资源的使用用途。

    镜像

    • Spark 3.5+Python 3.9

    • Spark 3.3+Python 3.9

    • Python 3.9

    ADB实例

    选择目标AnalyticDB for MySQL实例。

    说明
    • 如果镜像选择Spark 3.3或3.5,您还需要选择一个AnalyticDB for MySQL集群。

    • 如果搜索不到目标集群,请检查集群是否录入至DMS。录入操作,请参见云数据库录入

    ADB资源组

    选择目标资源组。

    Executor规格

    Spark Executor的资源规格。不同型号的取值对应不同的规格,详情请参见Spark应用配置参数说明的型号列。

    Executor数量

    Spark配置下的Executor数量。

    说明

    Notebook公测期间,每一个Notebook实例中添加的资源的Executor总数最多为6个。如果您需要解除Executor数量限制,请联系DMS技术支持。

    Driver规格

    Spark Driver的资源规格。

    • General_XSmall_v1(2核8 GB)

    • General_Small_v1(4核16 GB)

    • General_Mediun_v1(8核32 GB)

    • General_Large_v1(16核64 GB)

    Notebook规格

    镜像选择Python 3.9时,会出现该参数。

    • General_XSmall_v1(2核8 GB)

    • General_Small_v1(4核16 GB)

    • General_Mediun_v1(8核32 GB)

    • General_Large_v1(16核64 GB)

    VPC ID

    选择可用的VPC。

    Zone ID

    选择VPC的可用区。

    VSwitch ID

    选择可用VPC下的交换机。

    安全组ID

    选择可用的安全组。

  3. 单击保存

  4. 启动资源。

    单击目标资源右侧操作列的启动,再单击确认

    说明

    启动资源预计需要1分钟,启动成功后,资源状态会变为运行中

步骤五:配置用户存储空间

如果您需要在使用数据工作站功能时,读取除DMS Notebook以外的数据。DMS支持您配置多个OSS Bucket路径,以读取Bucket中的数据。

  1. 进入项目空间后,在设置image页签内,单击存储管理

  2. 在用户存储空间区域,配置OSS路径。

    说明

    挂载路径必须以/mnt/开头。

    image

  3. 单击保存image

步骤六:查看数据

  1. 进入项目空间后,在数据image页签内。

  2. 您可以在SQL Console中进行如下操作:

    • 查询数据

      您可使用Copilot生成查询SQL或自行输入SQL语句。SQL语法应与逻辑数仓的SQL语法保持一致,请参见逻辑数仓SQL语法介绍

      说明

      使用统一的MySQL语法进行查询,无需关注查询的表的数据库来源(比如AnalyticDB MySQL版、RDS MySQL),DMS会自动为您进行转换、优化。

      在使用Copilot生成SQL的过程中,Copilot能够根据您提供的反馈和库表列元数据信息自动获取业务知识。如果所获取的知识不准确,您可以进行编辑以提升其参考价值,随后Copilot在回答类似问题时将会参考该知识以提高准确性。更多知识的信息,请参见使用Copilot生成SQL

      如果您对Copilot生成的SQL满意并符合您的业务需求,可以为其点赞。这一操作将成为后续生成SQL的参考。

    • 查看表使用说明

      系统自动根据库表列元数据生成表描述。您可展开数据库,再双击表名称,在使用说明页签下查看或编辑表描述。

      image

下一步操作

使用Notebook开发

管理Notebook资源

针对已添加的资源,您可在资源配置页面进行如下操作。如何进入资源配置页面,请参见步骤四:添加资源

  • 手动停止资源运行

  • 编辑资源信息

    说明

    当资源停止运行时,才可以编辑资源信息。

  • 手动启动已停止运行的资源

  • 自动释放Notebook资源

    当Notebook中的所有Kernel完全退出时,Kernel会进入空闲状态,并且当空闲时间≥设置的空闲时间时,Notebook资源会被自动释放。

  • 查看Notebook资源中Spark的历史执行任务

    1. 在资源配置页面,单击目标资源右侧的SparkUI,进入任务列表页面。

      image

    2. 单击目标App ID,查看Spark执行详情。

      image