Notebook相当于一个交互式的页面,能够在同一个页面中集成代码、文字和图表,以便于向其他用户传达信息。本文介绍如何在工作空间中使用Notebook进行数据查询和分析。
前提条件
您的AnalyticDB for MySQL实例已引入目标工作空间。具体操作,请参见Notebook所需资源。
注意事项
新版Notebook仅支持部分地域使用,包括:华东1(杭州)、华北2(北京)、华东2(上海)和华南1(深圳)。
操作步骤
新建Notebook文件并执行相关代码。
如下为您展示两种新建Notebook文件的方式,您可任选其一。
手动创建文件
单击工作空间右侧的
(资源管理器)。
在WORKSPACE区域,右键空白区域,选择新建Notebook文件。
输入文件名称,再单击确定。
使用导入功能导入文件
单击工作空间右侧的
(资源管理器)。
在WORKSPACE区域,右键空白区域,选择上传文件。
输入文件名称,再单击确定。
说明新建Notebook文件后,如果文件没有出现在工作空间区域,请单击
刷新资源管理器。
双击文件名称,进入执行代码页面进行作业开发。
在Cell中输入相关代码,再单击
执行按钮。
如果页面出现提示“运行失败,需要您先创建并挂载Notebook会话资源”,则需要单击创建会话。
创建Notebook会话。
单击创建会话,并配置如下参数信息。
参数
说明
所属集群
选择目标集群类型。
如果您仅需要使用CPU执行,则选择DMS默认CPU集群即可(创建工作空间时,已自动创建)。
如果您需要使用Spark开发作业,则选择Spark集群(需要手动创建)。
您可在集群下拉列表单击创建集群,选择创建Spark集群。
会话名称
您可自定义会话名称。
镜像
页面会根据您选择的集群类型展示对应的镜像规格。
Python3.9_U22.04:1.0.9
Python3.11_U22.04:1.0.9
Spark3.6_Scala2.12_Python3.9:1.0.9
Spark3.3_Scala2.12_Python3.9:1.0.9
规格
Driver的资源规格。
1核4 GB
2核8 GB
4核16 GB
8核32 GB
16核64 GB
配置
profile资源。
您可编辑profile的名称、资源释放时长、数据存储位置、Pypi包管理和环境变量信息。
说明资源释放时长:当资源空闲时间超过设置的时长,则会自动释放。资源释放时长设置为0,表示资源永久不会自动释放。
单击完成,去创建。
当会话状态为运行中,表示创建成功。
初次创建会话大约耗时5分钟左右,后续创建或重启会话大约需要1分钟左右。
重新执行代码。
在Spark SQL Cell中执行的代码,您可在数据目录
区域查看。
Notebook界面介绍
支持的单元格属性:Python、SQL、Markdown和Parameter。
:保存输入的SQL、Python代码等信息。
说明DMS默认仅自动保存已执行的SQL或代码。其他未执行的SQL或代码需要手动保存,否则在关闭功能页面或关闭浏览器后将无法查看。
:增加一行Python属性单元格。
:增加一行Markdown属性的单元格。
:中断内核,即暂停使用当前选择的Spark资源执行代码。
:运行当前Notebook文件中的SQL。
:重启内核,即重启Spark资源。
:执行所选中的单元格。
:执行上方所有的单元格。
:执行当前及以下所有的单元格。
:拆分单元格。
:删除所选中的单元格。
:查看此单元格的执行历史。
:打开开关,该单元格将不被执行。
创建Spark集群
在创建集群页面,配置Spark集群信息。
参数说明如下:
参数
说明
集群名称
输入便于识别使用场景的集群名称。
运行环境
目前支持选择如下镜像:
adb-spark:v3.3-python3.9-scala2.12
adb-spark:v3.5-python3.9-scala2.12
AnalyticDB实例
在下拉框中选择已准备的AnalyticDB for MySQL。
AnalyticDB MySQL资源组
在下拉框中选择已准备的Job资源组。
Spark APP Executor规格
选择AnalyticDB for MySQL Spark Executor的资源规格。
不同型号的取值对应不同的规格,详情请参见Spark应用配置参数说明的型号列。
交换机
选择当前VPC下的交换机。
依赖的Jars
Jar包的OSS存储路径。仅在通过Python提交作业且使用了Jar包时,填写该参数。
SparkConf
与开源Spark中的配置项基本一致,参数格式为
key: value
形式。与开源Spark用法不一致的配置参数及AnalyticDB for MySQL特有的配置参数,请参见Spark应用配置参数说明。单击创建集群。
在Notebook会话中选择已创建的Spark集群。
Notebook对话关联Spark集群后,集群状态变为运行中。
其他操作
添加单元格
在Notebook工具栏中,根据需要选择新增
SQL
、Python
、Markdown
、Parameter,快速创建对应的单元格。此外,您也可以在代码编辑区具体单元格上下方快速新增单元格。从当前单元格上方新增单元格:鼠标悬浮至单元格上方时展示新增代码按钮。
从当前单元格下方新增单元格:鼠标悬浮至单元格下方时展示新增代码按钮。
切换单元格属性
单击单元格右侧的属性,即可切换单元格属性。
开发单元格代码
在相应的单元格内可编辑SQL、Python以及Markdown代码,使用SQL单元格开发时,需确保SQL语法与选择的SQL单元格类型。