MaxCompute Notebook使用说明

MaxCompute Notebook是由MaxCompute提供的全托管、交互式数据分析挖掘模块,为数据工程师、数据分析师及数据科学家等人员提供Web交互式开发环境。支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。

版本说明

当前MaxCompute Notebook功能处于公测阶段,每个租户最多可启动5个Notebook实例,每个实例提供2 CU免费计算资源供用户进行开发工作。

目前MaxCompute Notebook已开通的区域包括:华东1(杭州)、华北2(北京)、华东2(上海)、华南1(深圳)、华北6(乌兰察布)

说明

如果您有MaxCompute Notebook功能使用问题 ,可以搜索加入MaxCompute Notebook功能支持钉钉群:29455027568。

前提条件

  • 已创建MaxCompute项目。详情请参见创建MaxCompute项目

  • 已创建MaxCompute与VPC网络之间的连接,以便后续在Notebook实例中访问MaxCompute的数据。详情请参见创建网络连接

注意事项

  • 创建的网络连接、文件系统及MaxCompute项目必须与Notebook实例处于同一地域,保障其网络连通性。

  • 若需要删除已创建的网络连接,请谨慎操作,删除前请先确保您的目标网络连接没有被Notebook实例使用,否则会导致Notebook实例启动失败。

功能优势

MaxCompute Notebook基于开源JupyterLab进行了深度优化,结合MaxCompute强大的数据处理能力帮助用户一站式完成数据分析、挖掘及探索等工作。

  • 多引擎支持

    支持MaxCompute PyODPS、MaxFrame等多种Python开发方式,您无需转变原有的开发方式可快速开始数据分析、数据挖掘工作。

  • 与MaxCompute深度集成

    MaxCompute Notebook可基于现有MaxCompute计算资源池快速创建实例,您无需进行复杂配置,可快速拉起MaxCompute Notebook实例。

  • 内置丰富函数库

    MaxCompute Notebook内置pandas、numpy、pyplot、pyecharts、matplotlib等大量数据分析、挖掘及可视化扩展库,无需花费大量时间准备开发环境,满足您日常数据挖掘及可视化分析需求。

  • 安全保障

    MaxCompute Notebook采用Bearer Token方式进行用户认证,通过MaxCompute Notebook连接MaxCompute集群时,您无需再配置AK和SK信息,降低了AK、SK泄露的风险。

快速入门

步骤一:创建实例模版

您可在Notebook页面创建实例模版,以供后续创建Notebook实例时引用。

  1. 进入Notebook列表页面,在实例模版页签单击新增实例模版

  2. 新增实例模版对话框中,配置以下参数。

    参数名

    描述

    实例模版名称

    待创建的Notebook实例模版名称。

    描述

    实例模版相关描述。

    自动释放设置

    可设置实例释放时间。

    • 否:不自动释放实例。

    • 是:xx小时后自动释放实例。

    选择计算引擎

    内置MaxFrame SDK,可直接使用。

  3. 单击确定,完成实例模版的创建。

步骤二:创建Notebook实例

  1. 登录MaxCompute控制台,单击工作区 > Notebook,进入Notebook列表页面。

  2. 实例管理页签单击新增实例,配置页面参数。

    参数名

    描述

    实例名称

    待创建的Notebook实例名称。

    描述

    实例相关描述。

    关联项目

    用于后续免AK、SK关联项目进行数据操作。

    实例创建方式

    支持自定义创建及基于实例模版创建。

    选择实例模版

    实例创建方式为基于实例模版创建时配置该参数。选择已创建的实例模版,或新增实例模版,详情请参见步骤一:创建实例模版

    自动释放设置

    实例创建方式为自定义创建时配置该参数。

    • 否:不自动释放实例。

    • 是:填写自动释放时间,在xx小时后自动释放实例。

    计算资源

    选择配额组(Quota)。

    说明

    目前仅支持选择按量付费Quota。

    存储配置

    选择已创建的数据存储,可挂载用户NAS,用于持久化保存脚本文件。

    您也可单击创建数据存储进行新建,详情请参见附录:创建数据存储

    计算引擎

    内置MaxFrame SDK,可直接使用。

    是否共享当前实例

    • 租户内可见:当前实例租户内所有用户可见。

    • 仅自己可见:仅对您和管理员可见。

  3. 单击确定,当目标Notebook实例状态变为运行中时,表示实例启动成功。

    说明

    完成实例创建后,也可单击目标实例操作列的image > 自动释放设置更改自动释放配置。

步骤三:进行Notebook开发

为方便您快速熟悉并上手进行开发工作,MaxCompute Notebook为您提供基于MaxFrame实现分布式Pandas处理的开发Demo脚本,其中包含了数据准备、数据分析、数据探查及数据分布式处理等内容,您可单击product_sales_demo_nb.ipynb进行下载,下述为您介绍MaxCompute Notebook的开发使用过程:

  1. 进入Notebook实例页面,上传Demo脚本。

    单击目标实例操作列的进入,在实例页面左侧单击image上传Demo脚本。image

  2. 填写相关项目信息并执行脚本文件,生成可视化结果。

    1. 双击左侧的product_sales_demo_nb.ipynb脚本,打开脚本文件,根据其中的提示信息,填写PROJECT_NAME。您可以根据需要选择使用Notebook实例中已关联的项目或其他项目。

      • 使用已关联的项目:

        需要在脚本文件中,将2.2 准备数据小节的创建ODPS对象代码块中的project=PROJECT_NAME替换为project=os.getenv('ODPS_PROJECT_NAME'),此时2.1 准备项目小节中的PROJECT_NAME可以无需填写。

      • 使用其他项目:

        PROJECT_NAME需要配置为后续进行计算的MaxCompute项目名称。

      image

    2. 单击脚本文件上方的image,然后在Restart Kernel?对话框中单击Restart,执行脚本代码。当页面右上角的圆圈图标变为空心的image,且代码中没有报错时,表示执行成功。

    3. 查看Matplotlib生成的图表,对数据挖掘分析结果进行可视化展示。

步骤四(可选):释放Notebook实例

开发完成后,进入Notebook实例管理页签,单击目标实例操作列的停止,然后单击删除,可释放Notebook实例。

附录:创建数据存储

  1. 创建数据存储面板中配置以下参数。

    参数名

    描述

    数据存储名称

    可自定义命名。

    选择数据存储

    阿里云文件存储(通用型NAS)。

    选择文件系统

    选择已创建的文件系统。

    您也可单击创建,在文件存储控制台中创建通用型NAS文件系统,创建方法请参见创建文件系统

    重要

    创建文件系统时,专有网络VPC虚拟交换机必须与网络连接中的保持一致。

    文件系统挂载点

    文件系统挂载点地址,获取方式请参见管理挂载点

    选择安全组

    与网络连接中的安全组保持一致。

    文件系统路径

    配置NAS中已有的存储路径。例如/

    默认挂载路径

    为已创建的文件系统配置挂载路径。例如/mnt/data

  2. 单击确定