本文为您介绍如何创建数据工作站项目空间、添加资源并配置代码存储空间。
步骤一:创建并进入项目空间
- 登录数据管理DMS 5.0。
单击控制台左上角的图标,选择
。说明若您使用的是非极简模式的控制台,请在顶部菜单栏中,选择
。单击新建项目空间,在对话框中填入项目空间名、地域等信息,单击确认。
说明项目空间名称由英文字母、数字或下划线(_)组成。
目前项目空间地域支持选择华东1(杭州)、华北2(北京)、华东2(上海)。
单击操作列的进入空间,进入目标项目空间。
说明默认只有项目创建人有权进入该项目空间。如果需要进行协作开发,请项目创建人在该项目中为目标用户添加开发权限。
步骤二:添加项目成员
如果项目空间有多个用户参与,则需要给用户授予不同的项目空间角色。
待分配角色的用户要求已录入DMS。具体操作,请参见用户管理。
步骤三:配置代码存储空间
进入项目空间后,在项目设置页签内,单击存储配置。
在存储配置页面,单击代码空间右侧的图标。
在选择OSS目录对话框中,选择目标Bucket。
选择的Bucket必须与当前项目空间所在地域一致,且Bucket的存储类型必须为标准存储。
说明若当前Region下没有可用的Bucket,请前往OSS控制台创建。具体操作,请参见创建存储空间。
单击确定。
步骤四:添加资源
添加并启动资源后,您才可以使用Notebook进行数据查询和分析。
进入项目空间后,在项目设置页签内,单击资源配置。
单击添加资源,配置资源的相关信息。
参数
说明
资源名称
填写易于理解和使用的名称。
资源简介
填写该资源的使用用途。
镜像
Spark 3.5+Python 3.9
Spark 3.3+Python 3.9
Python 3.9
ADB实例
选择目标AnalyticDB for MySQL实例。
说明如果镜像选择Spark 3.3或3.5,您还需要选择一个AnalyticDB for MySQL集群。
如果搜索不到目标集群,请检查集群是否录入至DMS。录入操作,请参见云数据库录入。
ADB资源组
选择目标资源组。
Executor规格
Spark Executor的资源规格。不同型号的取值对应不同的规格,详情请参见Spark应用配置参数说明的型号列。
Executor数量
Spark配置下的Executor数量。
说明Notebook公测期间,每一个Notebook实例中添加的资源的Executor总数最多为6个。如果您需要解除Executor数量限制,请联系DMS技术支持。
Driver规格
Spark Driver的资源规格。
General_XSmall_v1(2核8 GB)
General_Small_v1(4核16 GB)
General_Mediun_v1(8核32 GB)
General_Large_v1(16核64 GB)
Notebook规格
镜像选择Python 3.9时,会出现该参数。
General_XSmall_v1(2核8 GB)
General_Small_v1(4核16 GB)
General_Mediun_v1(8核32 GB)
General_Large_v1(16核64 GB)
VPC ID
选择可用的VPC。
Zone ID
选择VPC的可用区。
VSwitch ID
选择可用VPC下的交换机。
安全组ID
选择可用的安全组。
单击保存。
启动资源。
单击目标资源右侧操作列的启动,再单击确认。
说明启动资源预计需要1分钟,启动成功后,资源状态会变为运行中。
步骤五:配置用户存储空间
如果您需要在使用数据工作站功能时,读取除DMS Notebook以外的数据。DMS支持您配置多个OSS Bucket路径,以读取Bucket中的数据。
进入项目空间后,在设置页签内,单击存储管理。
在用户存储空间区域,配置OSS路径。
说明挂载路径必须以/mnt/开头。
单击保存。
步骤六:查看数据
进入项目空间后,在数据页签内。
您可以在SQL Console中进行如下操作:
查询数据
您可使用Copilot生成查询SQL或自行输入SQL语句。SQL语法应与逻辑数仓的SQL语法保持一致,请参见逻辑数仓SQL语法介绍。
说明使用统一的MySQL语法进行查询,无需关注查询的表的数据库来源(比如AnalyticDB MySQL版、RDS MySQL),DMS会自动为您进行转换、优化。
在使用Copilot生成SQL的过程中,Copilot能够根据您提供的反馈和库表列元数据信息自动获取业务知识。如果所获取的知识不准确,您可以进行编辑以提升其参考价值,随后Copilot在回答类似问题时将会参考该知识以提高准确性。更多知识的信息,请参见使用Copilot生成SQL。
如果您对Copilot生成的SQL满意并符合您的业务需求,可以为其点赞。这一操作将成为后续生成SQL的参考。
查看表使用说明
系统自动根据库表列元数据生成表描述。您可展开数据库,再双击表名称,在使用说明页签下查看或编辑表描述。
下一步操作
管理Notebook资源
针对已添加的资源,您可在资源配置页面进行如下操作。如何进入资源配置页面,请参见步骤四:添加资源。
手动停止资源运行
编辑资源信息
说明当资源停止运行时,才可以编辑资源信息。
手动启动已停止运行的资源
自动释放Notebook资源
当Notebook中的所有Kernel完全退出时,Kernel会进入空闲状态,并且当空闲时间≥设置的空闲时间时,Notebook资源会被自动释放。
查看Notebook资源中Spark的历史执行任务
在资源配置页面,单击目标资源右侧的SparkUI,进入任务列表页面。
单击目标App ID,查看Spark执行详情。