开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorksPyODPS 2节点上直接编辑Python代码,操作MaxCompute。前提条件 已创建PyODPS 2节点,详情...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本,要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本,要求Mars为0.4.4以上...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力,无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点,您可以在该节点中直接使用Python代码编写MaxCompute作业,并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件 已创建PyODPS 3节点,详情请参见 创建并管理...

PyODPS概述

PyODPS提供了与ODPS命令行工具类似的功能,例如上传和下载文件、创建表、运行ODPS SQL查询等,同时提供了一些高级功能,如提交MapReduce任务、使用ODPS UDF等。本文为您介绍PyODPS的应用场景、支持的工具,及使用过程中需要关注的注意事项...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorksPyODPS类型节点,结合开源结巴中文分词库,对数据表中的中文字段进行分词处理并写入新的数据表,以及如何通过闭包函数使用自定义词典进行分词。前提条件 已创建DataWorks工作空间并绑定了MaxCompute计算...

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上安装...

Python SDK常见问题

本文为您介绍Python SDK常见问题,即PyODPS。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上...

项目空间

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。获取项目空间 使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

开源支持

欢迎各位开发者参与到PyODPS的生态开发中,在您开始使用PyODPS之前请先安装PyODPS,详细内容请参见 PyODPS安装指南。如何在DataWorks上使用PyODPS,详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API,详情请参见 PyODPS DataFrame...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

安装PyODPS

完成上述配置后,您就可以在本地环境中使用PyODPS,例如对于ODPS对象的基本操作 list、get、exist、create、delete 等,更多PyODPS的使用指导请参见 基本操作概述、DataFrame概述。说明 如无特殊说明,文档中的o对象即为ODPS对象。

通过DataWorks使用PyODPS

ODPS入口 执行SQL DataFrame 获取调度参数 设置运行参数hints 更多PyODPS的使用指导请参见 基本操作概述、DataFrame概述。您也可以参考示例文档:使用PyODPS节点进行结巴中文分词,进行一个端到端的简单操作。进行调度配置,完成后保存、...

在本地环境上使用PyODPS

创建ODPS入口 执行SQL DataFrame 设置运行参数hints 更多PyODPS的使用指导请参见 基本操作概述、DataFrame概述。您也可以参考示例文档:使用PyODPS节点进行结巴中文分词,进行一个端到端的简单操作。本地运行python文件。创建ODPS入口 您...

ODPS-0123144

错误码:ODPS-0123144:Fuxi job failed 错误1:kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

MapReduce错误码(ODPS-07CCCCX)

ODPS-07CCCCX:通用描述-上下文相关说明 MapReduce错误包含META(CCCC段为1000~1999)、PARSER(CCCC段为2000~2999)、INTERNAL(CCCC段为3000~3999)模块错误。具体错误码列表如下。错误码 模块 严重等级 触发条件 处理方法 ODPS-0720001:...

准备工作

MaxCompute支持通过标准MaxFrame SDK(本地MaxFrame客户端)、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame,本文为您介绍使用MaxFrame前需要准备的运行环境。前提条件 已安装3.6及以上版本的Python环境。已创建MaxCompute项目...

使用DataWorks连接

MaxCompute任务节点包括:ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景 数据分析使用场景 数据分析的 SQL查询 功能使用场景如下:您可以通过数据分析的 SQL查询 功能查询数据,并...

PyODPS的去重

本文为您介绍如何进行PyODPS的去重。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 ...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并...

Schema

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。基本操作 当前MaxCompute Schema功能还在公测中,如果您需要使用的话,请提交新功能测试申请...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本 如果发现项目当前选择的数据类型版本不能满足业务需求,可以修改数据类型版本。项目管理员...

数据动态脱敏

DataWorks基础版暂时无法使用此功能,如您的DataWorks为基础版,请升级DataWorks为合适版本。详情请参见 DataWorks各版本详解。仅华北2(北京)、华东2(上海)、华东1(杭州)、西南1(成都)、华南1(深圳)、华北2(北京政务云)、华东2...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据...

运行模式

MaxCompute Spark支持三种运行方式:Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似,您首先需要做以下准备工作:准备MaxCompute项目以及对应...

Python SDK概述

本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供了DataFrame框架和MaxCompute对象的基本操作方法,使用户能够更轻松地使用Python语言进行MaxCompute任务的开发和数据处理。PyODPS兼容Python2(2.6以上版本)和Python3版本。...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

开发ODPS MR任务

DataWorks中,您可以通过ODPS MR节点实现MaxCompute MapReduce任务的调度运行,以及与其他作业的集成操作。使用限制 ODPS MR节点的使用限制请参见 使用限制。编辑代码:简单示例 以下以一个简单示例为您介绍ODPS MR节点的使用:统计wc_in...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

PyODPS支持对MaxCompute表的基本操作,包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作 说明 基本操作 列出项目空间下...

PyODPS的排序

本文为您介绍如何进行PyODPS的排序。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 ...

周期性调度作业概述

其中:不同类型的作业任务可以使用不同的节点,如ODPS SQL节点、ODPS Spark节点、PyODPS节点等。同时您还可以通过DataWorks界面化的创建MaxCompute表、将MaxCompute函数注册至DataWorks、在DataWorks上创建MaxCompute资源,来提高作业开发...

2019年

PyODPS的排序 PyODPS的去重 PyODPS的采样 PyODPS的数据缩放 PyODPS的空值处理 2019-10-17 新增成本优化最佳实践。新实践 新增成本优化最佳实践。成本优化 2019-10-09 SQL语法新增功能。新功能 新增合并分区语法。新增JOIN与SETOP支持括号...

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

创建并使用MaxCompute资源

说明 新创建的资源如果未在MaxCompute(ODPS)客户端上传过,则需勾选 上传为ODPS资源,如果该资源已上传至MaxCompute(ODPS)客户端,则需取消勾选 上传为ODPS资源,否则上传均会报错。通过DataWorks可视化方式创建或上传的资源,若上传时...

2024年

2024年02月29日-DataWorks独享资源组PyODPS节点升级公告 尊敬的MaxCompute用户:DataWorks将于北京时间 2024年04月08日(周一)至 2024年05月30日(周四)期间,逐步升级各个地域的独享资源组,以增强PyODPS支持。本次升级的主要内容及各...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

快速入门

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。数据准备 本文以 movielens ...

授权实践

Policy内容如下:{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...
共有97条 < 1 2 3 4 ... 97 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 对象存储
新人特惠 爆款特惠 最新活动 免费试用