PAI-DSW不断地强化平台算法开发和训练能力,同时完善了大数据开发功能,为您提供一站式、交互式的AI开发环境。您可以通过PAI-DSW完成从数据获取、数据探索分析、算法开发、模型训练到模型部署的机器学习全流程。

功能概览

您可以在PAI-DSW编写SQL语句,预置的SQL编辑器支持语法高亮、智能提示及自动补全等功能。只需要配置一次数据源,就可以直接读取MaxCompute各项目下的表数据,再一键执行SQL图表化,进而以可视化方式展示数据分布情况。功能gif

使用dswmagic进行大数据开发

dswmagic是PAI-DSW封装的Notebook魔法命令,加载该魔法命令后,即可使用大数据开发的相关功能(例如,编写SQL语句以读取MaxCompute表数据)。

  1. 进入PAI-DSW开发环境。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > DSW-Notebook建模
    3. 在页面左上方,选择使用服务的地域。
    4. Notebook建模服务页面的搜索框,输入实例名称或实例ID关键字,搜索实例。
    5. 单击需要打开的实例操作列下的打开
  2. 创建.ipynb文件。
    1. 在PAI-DSW开发环境的上方菜单栏,选择File > New > Notebook
    2. Select Kernel对话框,选择内核版本,并单击SELECT
  3. 加载dswmagic
    1. 输入如下加载命令。
      %load_ext dswmagic
    2. 单击页面上方的运行图标,运行命令。
  4. 配置Cell类型为sql
    .ipynb文件,新增Cell,并为其选定SQL编辑器,该Cell自动切换至SQL编辑模式。切换cell
  5. 配置数据源和Endpoint。
    1. 单击New DataSource右侧的加号。
    2. Config DataSource对话框,配置参数:
      • AccessKey ID:阿里云的AccessKey ID。
      • AccessKey Secret:阿里云的AccessKey Secret。
      • ProjectName:MaxCompute表所在的项目。
      • Endpoint:不同地域、不同资源规格的Endpoint可能不同。
        地域 资源规格 Endpoint
        华北2(北京) P100 GPU http://service-all.ext.odps.aliyun-inc.com/api
        华北2(北京) 除P100 GPU以外的资源 http://service.cn.maxcompute.aliyun.com/api
        华东2(上海) M40 GPU http://service-all.ext.odps.aliyun-inc.com/api
        华东2(上海) 除M40 GPU以外的资源 http://service.cn.maxcompute.aliyun.com/api
        华南1(深圳) 无限制 http://service.cn.maxcompute.aliyun.com/api
        华东1(杭州) 无限制 http://service.cn.maxcompute.aliyun.com/api
        新加坡(新加坡) 无限制 http://service.ap-southeast-1.maxcompute.aliyun.com/api
        印度(孟买) 无限制 http://service.ap-south-1.maxcompute.aliyun.com/api
    3. 单击Submit
    4. New DataSource列表,选择已配置的数据源。
  6. 编写及运行SQL语句。
    1. 编写SQL语句,示例如下。
       SELECT * FROM <your_project>.<your_table> LIMIT 100;
      其中<your_project>为MaxCompute项目名称,<your_table>为MaxCompute项目下的表名,都需要根据实际情况修改。
    2. 单击页面上方的运行图标,运行SQL语句。运行SQL
      PAI-DSW预置的SQL编辑器支持一次执行单条或多条SQL语句,语句之间使用英文分号(;)分隔,其运行结果逐行显示。运行结果的数据支持多种展现方式,包括Excel、直方图、圆饼图、曲线图、折线图及散点图。单击设置图标,可以设置图表的X和Y轴。单击编辑图标,可以进入WebExcel编辑图表,生成的结果保存在df0参数中。df0.values是标准的Pandas DataFrame,系统支持对Pandas DataFrame的输出进行WebExcel和图表可视化展示。