DataWorks提供PyODPS 2节点类型,集成了MaxCompute的Python SDK。您可以在DataWorks的PyODPS 2节点上,直接编辑Python代码,用于操作MaxCompute。
背景信息
说明
- PyODPS 2节点底层的Python版本为2.7。
- 推荐通过SQL或者Dataframe的方式处理数据,详情请参见DataFrame概述。不建议您直接调用pandas等第三方包来处理数据。
- PyODPS 2节点获取到本地处理的数据不能超过50 MB,节点运行时占用的内存不能超过1 GB,否则节点任务会结束运行。请避免在PyODPS 2节点中写入过多的数据处理代码。
- Hints参数的详情请参见SET操作。
PyODPS 2节点主要针对MaxCompute的Python SDK应用。对于纯Python代码的执行,您可以使用Shell节点执行上传至DataWorks的Python脚本。如果您需要在PyODPS 2节点中调用第三方包,请参见在PyODPS节点中调用第三方包。
PyODPS操作实践请参见使用MaxCompute分析IP来源最佳实践和PyODPS节点实现结巴中文分词,更多信息请参见PyODPS文档。
新建PyODPS 2节点
PyODPS节点预装模块列表
PyODPS节点包括以下预装模块:
- setuptools
- cython
- psutil
- pytz
- dateutil
- requests
- pyDes
- numpy
- pandas
- scipy
- scikit_learn
- greenlet
- six
- 其它Python 2.7内置已安装的模块,如smtplib等。
在文档使用中是否遇到以下问题
更多建议
匿名提交