使用DataWorks连接

MaxCompute任务节点包括:ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景 数据分析使用场景 数据分析的 SQL查询 功能使用场景如下:您可以通过数据分析的 SQL查询 功能查询数据,并...

项目空间

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。获取项目空间 使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

快速入门

为方便您快速开始,本文中使用DataWorks PyODPS节点进行开发,详情请参见 创建PyODPS 3节点。说明 以PyODPS 3节点作为示例,PyODPS 3节点底层的Python版本为3.7。PyODPS节点获取本地处理的数据量不能超过50 MB,节点运行时占用的内存不能...

开发PyODPS 2任务

o.get_table('table_name').get_partition('ds='+args['ds'])更多场景的PyODPS任务开发,请参考:PyODPS使用第三方包 节点运行ECS机器上的脚本 PyODPS节点实现结巴中文分词 PyODPS节点实现避免将数据下载到本地 后续步骤 如何判断Shell...

PyODPS概述

使用第三方包:PyODPS使用第三方包。查看一级分区:PyODPS查看一级分区。条件查询:PyODPS条件查询。DataFrame Sequence及执行:PyODPS的Sequence及执行操作。支持的工具 PyODPS支持在本地环境、DataWorks、PAI Notebooks中使用。重要 无论...

开发PyODPS 3任务

o.get_table('table_name').get_partition('ds='+args['ds'])更多场景的PyODPS任务开发,请参考:PyODPS使用第三方包 节点运行ECS机器上的脚本 PyODPS节点实现结巴中文分词 PyODPS节点实现避免将数据下载到本地 后续步骤 如何判断Shell...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK,提供对MaxCompute对象的基本操作及DataFrame框架,帮助您在MaxCompute上使用Python进行数据分析,支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时,如何安装PyODPS。前提...

PyODPS常见问题

使用DataWorks或其他脱敏工具先对数据进行脱敏,导出到非保护Project,再进行读取。如果只想查看部分数据,可使用如下方法:改用 o.execute_sql('select*from<table_name>').open_reader()。改用 DataFrame,o.get_table('<table_name>')....

Python SDK常见问题

使用DataWorks或其他脱敏工具先对数据进行脱敏,导出到非保护Project,再进行读取。如果只想查看部分数据,可使用如下方法:改用 o.execute_sql('select*from<table_name>').open_reader()。改用 DataFrame,o.get_table('<table_name>')....

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorksPyODPS类型节点,结合开源结巴中文分词库,对数据表中的中文字段进行分词处理并写入新的数据表,以及如何通过闭包函数使用自定义词典进行分词。前提条件 已创建DataWorks工作空间并绑定了MaxCompute计算...

Schema

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。基本操作 当前MaxCompute Schema功能还在公测中,如果您需要使用的话,请提交新功能测试申请...

PyODPS制作第三方包

PyODPS自V0.11.3版本开始提供了 pyodps-pack 命令行工具,用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包,使用方法类似 pip 命令。您可以使用该工具将所有依赖项目制作成一个后缀为...第三方包的使用方法请参见 PyODPS使用第三方包。

开源支持

如何在DataWorks使用PyODPS,详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API,详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求,加快PyODPS生态成长。服务支持方式:您可通过访问官方...

2019年

PyODPS使用第三方包 2019-07-22 新增PyODPS节点实现结巴中文分词最佳实践。新实践 新增PyODPS节点实现结巴中文分词最佳实践。PyODPS节点实现结巴中文分词 2019-07-22 新增PyODPS参数传递最佳实践。新实践 新增PyODPS参数传递最佳实践。...

创建并使用MaxCompute资源

您可通过 MaxCompute的SQL命令上传与管理资源,也可使用DataWorks的可视化方式创建。本文为您介绍如何使用DataWorks可视化方式创建资源并在节点中使用,以及基于资源注册函数。前提条件 工作空间已绑定引擎。在 工作空间配置 页面绑定...

PyODPS使用第三方包

本文为您介绍如何在PyODPS使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件 已开通MaxCompute产品。如何开通请参见 开通MaxCompute。已开通DataWorks产品。如何开通请参见 开通DataWorks。上传三方包 使用...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK,用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件 本地已安装python环境,且已安装PyODPS包,参考:安装PyODPS。准备数据集 ...

通过DataWorks使用PyODPS

获取调度参数 使用DataWorksPyODPS节点开发任务代码时,您也可以使用调度参数,例如,需要通过调度参数获取任务运行的业务日期等场景。PyODPS节点与DataWorks中的SQL节点在调度参数的定义参数操作方面一致,但是在代码中的引用方式不同。...

PyODPS DataFrame的代码运行环境

使用PyODPS DataFrame编写数据应用时,同一个脚本文件中的代码会在不同位置执行,可能导致一些无法预期的问题,本文为您介绍当出现相关问题时,如何确定代码的执行环境,以及提供部分场景下的解决方案。概述 PyODPS是一个Python包而非...

开发ODPS Spark任务

说明 该方式使用DataWorks提供的默认Python环境,可直接依赖的三方包有限,若默认环境无法满足PySpark作业第三方依赖包的需求,可参考下文《开发语言:Python(使用自定义Python环境实现)》方式,自行准备Python环境执行任务。当然,您也...

PyODPS参数传递

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并上传数据。操作方法请参见 建表并上传数据。表结构以及源数据信息如下。分区表 user_detail 建表语句如下。create ...

镜像管理

MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传...

PyODPS查看一级分区

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并上传数据。操作方法请参见 建表并上传数据。表结构以及源数据信息如下。分区表 user_detail 建表语句如下。create ...

PyODPS的去重

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 数据集 iris.data,重命名为 iris.csv。创建表 pyodps_iris 并上传数据集 iris.csv。操作方法请参见 建表并...

PyODPS读取分区表数据

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并上传数据。操作方法请参见 建表并上传数据。表结构以及源数据信息如下。分区表 user_detail 建表语句如下。create ...

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。基本操作 当前项目内的表操作 列出项目空间下的所有表:o.list_tables()方法可以列出项目空间...

准备工作

命令示例如下:python test.py 通过DataWorks访问MaxFrame DataWorks为MaxCompute项目提供任务调度能力,且已在PyODPS 3节点内置了MaxFrame,您可以直接使用DataWorksPyODPS 3节点开发和运行MaxFrame作业。创建PyODPS 3节点。您可以进入...

SQL脚本模式

通过DataWorks使用脚本模式。在DataWorks中可以建立脚本模式的节点ODPS Script,示例如下。在此节点中进行脚本模式编辑,编辑完成后单击工具栏的 运行 图标,提交脚本到MaxCompute执行。从输出信息的Logview URL中可以查看执行计划图和结果...

授权实践

Policy内容如下:{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...

查询加速(MCQA)

本文为您介绍MaxCompute查询加速MCQA(MaxCompute Query Acceleration)功能,并帮助您了解该功能的系统架构、关键特性、应用场景和使用限制。功能介绍 MaxCompute MCQA功能提供如下能力。支持对中、小数据量查询作业进行加速优化,将执行...

PyODPS的Sequence及执行操作

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 数据集 iris.data,重命名为 iris.csv。创建表 pyodps_iris 并上传数据集 iris.csv。操作方法请参见 建表并...

数据类型版本说明

项目管理员(Project Owner)或超级管理员角色(Super_Administrator Role)可以在 MaxCompute客户端、使用DataWorks连接 或 MaxCompute Studio 上执行如下命令,修改项目的数据类型版本。重要 在DataWorks数据开发的ODPS SQL节点中不能...

数据动态脱敏

推荐您使用DataWorks预设的数据识别规则,如果需要自定义数据识别规则,请参见 配置数据识别规则。使用限制 仅DataWorks专业版及以上版本,才可使用此功能。DataWorks基础版暂时无法使用此功能,如您的DataWorks为基础版,请升级DataWorks...

PyODPS的排序

在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 数据集 iris.data,重命名为 iris.csv。创建表 pyodps_iris 并上传数据集 iris.csv。操作方法请参见 建表并...

在SQL语句中设置Flag示例

背景信息 使用DataWorks或MaxCompute客户端提交SQL时,通常需要设置SQL的Flag。例如,Session级别使用MaxCompute 2.0数据类型时,需要在涉及2.0数据类型的SQL前加设置Flag的语句 set odps.sql.type.system.odps2=true;示例 使用Java SDK...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

创建并使用自定义函数

DataWorks支持您可视化创建与管理MaxCompute自定义函数,您可通过 MaxCompute的SQL命令创建与管理MaxCompute函数,也可使用DataWorks的可视化方式注册。本文为您介绍如何使用DataWorks可视化方式创建与使用MaxCompute自定义函数。前提条件 ...

快速入门

本文使用DataWorks PyODPS节点功能,详情请参见 开发PyODPS 3任务。创建测试数据表。使用DataWorks表管理功能新建表:打开相应的业务流程,右键单击 MaxCompute,选择 新建表。在 新建表 对话框中,选择 路径,输入 名称,单击 新建,进入...

UDF开发(Java)

使用DataWorks开发调试UDF时,您需要先开通DataWorks并绑定MaxCompute项目,做好UDF开发前准备工作。操作详情请参见 使用DataWorks连接。编写UDF代码。您可以在任意Java开发工具中开发UDF代码并打包为一个JAR包。您可以使用以下UDF代码示例...

PyODPS节点实现避免将数据下载到本地

本文为您介绍PyODPS如何避免将数据下载到本地。背景信息 PyODPS提供了多种方便下载数据到本地的方法。因此,在设备允许的情况下,可以把数据下载到本地处理,然后再上传至MaxCompute。但是这种操作非常低效,数据下载到本地进行处理,无法...
共有160条 < 1 2 3 4 ... 160 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 弹性公网IP 短信服务 人工智能平台 PAI 物联网平台 对象存储
新人特惠 爆款特惠 最新活动 免费试用