DataWorks排行榜-DataWorks排行榜文档介绍内容-阿里云

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上安装...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

Python SDK常见问题

本文为您介绍Python SDK常见问题，即PyODPS。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上...

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据...

开发PyODPS脚本

新建MaxCompute PyODPS脚本后，PyODPS脚本模板会通过PyODPS Room自动初始化 odps 和 o 两个对象。通过DataWorks开发PyODPS脚本时，系统会自动创建Room。通过IntelliJ IDEA开发PyODPS脚本时，需要创建Room，详情请参见 PyODPS文档。

PyODPS使用第三方包

本文为您介绍如何在PyODPS中使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件已开通MaxCompute产品。如何开通请参见开通MaxCompute。已开通DataWorks产品。如何开通请参见开通DataWorks。上传三方包使用...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorks的PyODPS类型节点，结合开源结巴中文分词库，对数据表中的中文字段进行分词处理并写入新的数据表，以及如何通过闭包函数使用自定义词典进行分词。前提条件已创建DataWorks工作空间并绑定了MaxCompute计算...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开源支持

如何在DataWorks上使用PyODPS，详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

PyODPS的去重

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))print iris[['name']].distinct()print iris.distinct('name')print iris.distinct('name','sepallength').head(3)#您可以调用unique对Sequence进行去重操作，...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件您需要完成以下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

ODPS-0420095

错误码：ODPS-0420095:Access Denied 错误1：You have no privilege to create external project-you have to be owner,super admin or admin of the referred project.错误信息 ODPS-0420095:Access Denied-You have no privilege to ...

通过DataWorks使用PyODPS

PyODPS为MaxCompute的Python版SDK，支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制使用方式限制如果您发现有 Got killed 报错，即表明内存使用超限，进程...

使用DataWorks连接

MaxCompute任务节点包括：ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景数据分析使用场景数据分析的 SQL查询功能使用场景如下：您可以通过数据分析的 SQL查询功能查询数据，并...

准备工作

MaxCompute支持通过标准MaxFrame SDK（本地MaxFrame客户端）、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame，本文为您介绍使用MaxFrame前需要准备的运行环境。前提条件已安装3.6及以上版本的Python环境。已创建MaxCompute项目...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据...

项目空间

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。获取项目空间使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

PyODPS DataFrame的代码运行环境

代码示例 from odps import ODPS,options import numpy as np o=ODPS(.)df=o.get_table('pyodps_iris').to_df()coeffs=[0.1,0.2,0.4]def handle(v):import numpy as np return float(np.cosh(v))*sum(coeffs)options.df.supersede_...

PyODPS制作第三方包

PyODPS自V0.11.3版本开始提供了 pyodps-pack 命令行工具，用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包，使用方法类似 pip 命令。您可以使用该工具将所有依赖项目制作成一个后缀为.tar.gz 的压缩包，其中包含所有依照MaxCompute...

PyODPS的排序

本文为您介绍如何进行PyODPS的排序。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾花 ...

SQL

PyODPS支持对MaxCompute SQL的基本操作，本文为您介绍如何在PyODPS中使用SQL。背景信息 PyODPS提供对MaxCompute SQL的基本操作方法，方法如下所示。方法名称方法说明 execute_sql()/run_sql()执行SQL语句。open_reader()读取SQL执行结果。...

表

PyODPS支持对MaxCompute表的基本操作，包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作说明基本操作列出项目空间下...

快速入门

movies=DataFrame(o.get_table('pyodps_ml_100k_movies'))ratings=DataFrame(o.get_table('pyodps_ml_100k_ratings'))o.delete_table('pyodps_ml_100k_lens',if_exists=True)lens=movies.join(ratings).join(users).persist('pyodps_ml_100...

Schema

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。基本操作当前MaxCompute Schema功能还在公测中，如果您需要使用的话，请提交新功能测试申请...

创建并使用MaxCompute资源

说明新创建的资源如果未在MaxCompute（ODPS）客户端上传过，则需勾选上传为ODPS资源，如果该资源已上传至MaxCompute（ODPS）客户端，则需取消勾选上传为ODPS资源，否则上传均会报错。通过DataWorks可视化方式创建或上传的资源，若上传时...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据。下载鸢尾...

查询加速（MCQA）

PyODPS。SQLAlchemy。基于MaxCompute客户端启用MCQA功能下载最新版 MaxCompute客户端（odpscmd）。安装并配置客户端，详情请参见安装并配置MaxCompute客户端。修改客户端安装目录conf下的配置文件odps_config.ini，在配置文件最后一行...

使用限制

PyODPS限制在MaxCompute中基于DataWorks开发PyODPS作业时的使用限制如下：PyODPS节点获取本地处理的数据不能超过50 MB，节点运行时占用内存不能超过1 GB，否则节点任务会被系统中止。请避免在PyODPS任务中添加额外的Python数据处理代码。...

周期性调度作业概述

如果您希望周期性运行MaxCompute作业，可使用DataWorks的DataStudio开发周期性MaxCompute作业，并配置周期性调度的时间属性、调度依赖等配置项，将作业整体提交至DataWorks的运维中心进行周期性调度。本文为您概要介绍当前使用DataWorks...

2024年

2024年02月29日-DataWorks独享资源组PyODPS节点升级公告尊敬的MaxCompute用户：DataWorks将于北京时间 2024年04月08日（周一）至 2024年05月30日（周四）期间，逐步升级各个地域的独享资源组，以增强PyODPS支持。本次升级的主要内容及各...

2019年

PyODPS参数传递 2019-07-12 新增set命令odps-sql-reshuffle-dynamicpt说明。新命令该命令用于设置动态分区，以避免拆分动态分区时产生过多小文件。SET操作 2019-07-11 新增tablestore-columns-mapping说明点。新说明在指定映射时，提供的...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK，用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件本地已安装python环境，且已安装PyODPS包，参考：安装PyODPS。准备数据集 ...

运行模式

MaxCompute Spark支持三种运行方式：Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似，您首先需要做以下准备工作：准备MaxCompute项目以及对应...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

DataWorks排行榜

新品推荐