全部产品
云市场

DSW大数据开发使用说明

更新时间:2019-10-10 19:30:00

PAI DSW在不断强化平台算法开发和训练能力的同时,近期着力完善了平台的大数据开发能力,在已有安装pyodps包读取MaxCompute数据的方式之上,扩展了DSW的交互式大数据开发能力,打通了从数据获取、数据探索分析、算法开发、模型训练以及模型部署至EAS的完整过程,为用户提供最佳的一站式交互式开发体验。

功能概览

本期DSW升级后,用户可直接在DSW里写SQL语句,预置的SQL编辑器支持了语法高亮、智能提示、自动补全等功能。完成一次配置,即可直接读取各项目下各MaxCompute表数据,一键执行SQL图表化展示数据分布等。

使用说明

1. 加载dswmagic

dswmagic是DSW平台封装的notebook魔法命令,提前在平台预装好了对应的安装包,只需一行加载魔法命令,即可使用大数据版的DSW相关功能。

  1. %load_ext dswmagic

2. cell切换为sql类型

加载DSW魔法命令后,在ipynb文件中新增cell,为cell选定sql编辑器,当前cell自动切换至sql编辑模式。

3. 配置数据源及Endpoint

在开始编写SQL之前,需要预先配置待读取MaxCompute表所在项目project以及账号的AK信息和项目的endpoint,一次配置多次复用。点击New DataSource右侧的+号,进入数据源配置界面,数据源增加成功后,下拉列表中选中该数据源即可引用,也可在列表中切换至其他数据源。

Endpoint的配置:

  1. AccessKey ID: 阿里云accessKey ID
  2. AccessKey Secret:阿里云accesskey Secret
  3. 北京regionP100机器、上海regionM40机器的Endpointhttp://service-all.ext.odps.aliyun-inc.com/api
  4. 其他机器的Endpoint: http://service.cn.maxcompute.aliyun.com/api

4. 编写及运行SQL

数据读取前的准备完成后,即可在DSW里开始写SQL语句了。编辑器支持单条及多条SQL语句的执行,语句间用;隔开,运行结果逐行展示。运行结果数据支持多种展现方式,包括Excel、直方图、圆饼图、曲线图、散点图等,其中各类分布图可点击设置按钮修改X轴和Y轴,点击右上角图表按钮可进入WebExcel直接编辑,同时生成的结果保存在变量df0中,df0.values是标准的pandas dataframe,DSW对pandas dataframe的输出也做了特殊的展示,可以支持WebExcel和图表的可视化结果展示。

DSW对大数据开发的深入支持不仅能提供更便捷的数据获取方式、更好的SQL编程体验、更强大的数据分析工具,同时打通了从sql查询结果到标准pandas dataframe的转化,训练好的模型也能够更快速地部署成模型服务,持续提升算法开发者的开发效率。