全部产品
云市场

读写MaxCompute表

更新时间:2020-02-24 20:16:21

DSW读写MaxCompute

PAI-DSW可以通过安装pyodps包来与MaxCompute或者PAI-Studio中的数据进行通信,pyodps是阿里云自行开发的一套python SDK。

pyodps开发文档:https://pyodps.readthedocs.io/zh_CN/latest/

pyodps

1.安装pyodps

进入DSW,打开终端,输入:

  1. pip install --user pyodps

2.读取MaxCompute表数据

代码示例(下方代码演示的是展示Maxcompute特定项目下的某表的前10行数据)

  1. from odps import ODPS
  2. from odps.df import DataFrame
  3. o = ODPS('*accessKey ID*', '*accesskey Secret*',project='*Maxcompute项目名*', endpoint='http://service-all.ext.odps.aliyun-inc.com/api')
  4. users = DataFrame(o.get_table('*表名*'))
  5. print(users.head(10))

dswmagic

1. 加载dswmagic

dswmagic是DSW平台封装的notebook魔法命令,提前在平台预装好了对应的安装包,只需一行加载魔法命令,即可编写SQL读取MaxCompute数据。打开ipynb文件,新建一个code类型的cell,如输入如下内容:

  1. %load_ext dswmagic

2. cell切换为sql类型

加载DSW魔法命令后,在ipynb文件中新增cell,为cell选定sql编辑器,当前cell自动切换至sql编辑模式。

3. 配置数据源及Endpoint

在开始编写SQL之前,需要预先配置待读取MaxCompute表所在项目project以及账号的AK信息和项目的endpoint,一次配置多次复用。点击New DataSource右侧的+号,进入数据源配置界面,数据源增加成功后,下拉列表中选中该数据源即可引用,也可在列表中切换至其他数据源。

Endpoint的配置:

  1. AccessKey ID: 阿里云accessKey ID
  2. AccessKey Secret:阿里云accesskey Secret
  3. 北京regionP100机器、上海regionM40机器的Endpointhttp://service-all.ext.odps.aliyun-inc.com/api
  4. 其他机器的Endpoint: http://service.cn.maxcompute.aliyun.com/api

4. 编写及运行SQL

配置完成后,直接在cell内进行sql编辑

  1. SELECT * FROM pai_online_project.wumai_data LIMIT 100;