开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型,您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发,PyODPS集成了MaxCompute的Python SDK。支持您在DataWorksPyODPS 2节点上直接编辑Python代码,操作MaxCompute。前提条件 已创建PyODPS 2节点,详情...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力,无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

准备工作

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本,要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本,要求Mars为0.4.4以上...

PyODPS概述

DataWorksDataWorksPyODPS节点已安装好了PyODPS,您可以直接在DataWorksPyODPS节点上开发PyODPS任务并周期性运行,操作指导请参见 通过DataWorks使用PyODPS。PAI Notebooks:PAI的Python环境也可安装运行PyODPS,其中PAI的内置镜像均...

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上安装...

Python SDK常见问题

本文为您介绍Python SDK常见问题,即PyODPS。问题类别 常见问题 安装PyODPS 安装PyODPS时,提示Warning:XXX not installed,如何解决?安装PyODPS时,提示Project Not Found,如何解决?安装PyODPS时,报错Syntax Error,如何解决?在Mac上...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorksPyODPS类型节点,结合开源结巴中文分词库,对数据表中的中文字段进行分词处理并写入新的数据表,以及如何通过闭包函数使用自定义词典进行分词。前提条件 已创建DataWorks工作空间并绑定了MaxCompute计算...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行MaxCompute Spark离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

项目空间

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。获取项目空间 使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

通过DataWorks使用PyODPS

PyODPS为MaxCompute的Python版SDK,支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制 使用方式限制 如果您发现有 Got killed 报错,即表明内存使用超限,进程...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK,用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件 本地已安装python环境,且已安装PyODPS包,参考:安装PyODPS。准备数据集 ...

PyODPS的去重

本文为您介绍如何进行PyODPS的去重。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 ...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 准备测试数据。创建表并...

准备工作

MaxCompute支持通过标准MaxFrame SDK(本地MaxFrame客户端)、MaxCompute Notebook及DataWorks节点三种方式使用MaxFrame,本文为您介绍使用MaxFrame前需要准备的运行环境。前提条件 已安装3.6及以上版本的Python环境。已创建MaxCompute项目...

使用DataWorks连接

MaxCompute任务节点包括:ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景 数据分析使用场景 数据分析的 SQL查询 功能使用场景如下:您可以通过数据分析的 SQL查询 功能查询数据,并...

ODPS-0123144

错误码:ODPS-0123144:Fuxi job failed 错误1:kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本 如果发现项目当前选择的数据类型版本不能满足业务需求,可以修改数据类型版本。项目管理员...

数据动态脱敏

DataWorks基础版暂时无法使用此功能,如您的DataWorks为基础版,请升级DataWorks为合适版本。详情请参见 DataWorks各版本详解。仅华北2(北京)、华东2(上海)、华东1(杭州)、西南1(成都)、华南1(深圳)、华北2(北京政务云)、华东2...

运行模式

MaxCompute Spark支持三种运行方式:Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似,您首先需要做以下准备工作:准备MaxCompute项目以及对应...

Schema

使用DataWorks:创建好PyODPS 2节点或PyODPS 3节点,详情请参见 通过DataWorks使用PyODPS。使用本地PC环境:安装好PyODPS并初始化ODPS入口对象。基本操作 当前MaxCompute Schema功能还在公测中,如果您需要使用的话,请提交新功能测试申请...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

PyODPS的排序

本文为您介绍如何进行PyODPS的排序。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾花 ...

Spark常见问题

DataWorks ODPS Spark节点中选择jar、file、archive资源。说明 该方案在任务运行时会上传资源,对于较大资源建议采用方案一进行引用。如何访问VPC?当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务:反向访问方式 使用限制...

开发ODPS SQL任务

DataWorks为您提供ODPS SQL节点,可用于周期性调度MaxCompute的SQL任务,并完成与其他类型节点的集成和联合调度。MaxCompute SQL任务采用类似SQL的语法,适用于海量数据(TB级)但实时性要求不高的分布式处理场景。本文为您介绍在DataWorks...

PyODPS支持对MaxCompute表的基本操作,包括创建表、创建表的Schema、同步表更新、获取表数据、删除表、表分区操作以及如何将表转换为DataFrame对象。背景信息 PyODPS提供对MaxCompute表的基本操作方法。操作 说明 基本操作 列出项目空间下...

执行

iris3=iris[iris.sepalwidth].persist('pyodps_iris_test',partitions=['name'])print(iris3.data)返回结果:odps.Table name:odps_test_sqltask_finance.`pyodps_iris` schema:sepallength:double sepalwidth:double petallength:double ...

创建并使用MaxCompute资源

说明 新创建的资源如果未在MaxCompute(ODPS)客户端上传过,则需勾选 上传为ODPS资源,如果该资源已上传至MaxCompute(ODPS)客户端,则需取消勾选 上传为ODPS资源,否则上传均会报错。通过DataWorks可视化方式创建或上传的资源,若上传时...

SETPROJECT

工具平台 本文中的命令您可以在 MaxCompute客户端、云命令行(odpscmd)或 DataWorksODPS SQL节点 中执行。注意事项 项目空间非工作空间。项目空间名称获取方式:登录 MaxCompute控制台,选择 工作区>项目管理,项目管理 页面的...

周期性调度作业概述

其中:不同类型的作业任务可以使用不同的节点,如ODPS SQL节点、ODPS Spark节点、PyODPS节点等。同时您还可以通过DataWorks界面化的创建MaxCompute表、将MaxCompute函数注册至DataWorks、在DataWorks上创建MaxCompute资源,来提高作业开发...

2019年

PyODPS的排序 PyODPS的去重 PyODPS的采样 PyODPS的数据缩放 PyODPS的空值处理 2019-10-17 新增成本优化最佳实践。新实践 新增成本优化最佳实践。成本优化 2019-10-09 SQL语法新增功能。新功能 新增合并分区语法。新增JOIN与SETOP支持括号...

2024年

2024年02月29日-DataWorks独享资源组PyODPS节点升级公告 尊敬的MaxCompute用户:DataWorks将于北京时间 2024年04月08日(周一)至 2024年05月30日(周四)期间,逐步升级各个地域的独享资源组,以增强PyODPS支持。本次升级的主要内容及各...

权限问题

MaxCompute表无Download权限 报错信息 解决方法 在DataWorks的 数据地图 中搜索对应的MaxCompute表,并申请开通其Download权限,运行时则可以下载相应的数据。MaxCompute表无Describe、Select等权限 报错信息 解决方法 申请对应Project下的...

快速入门

本文以具体数据及开发场景为例,为您介绍在DataWorks数据开发的PyODPS 3节点中,如何创建和操作MaxFrame中的DataFrame对象,以及使用DataFrame完成基本的数据处理,帮助您在十分钟内快速使用MaxFrame进行开发。数据准备 本文以 movielens ...

使用限制

站点 地域 Slot(个数)中国 华东1(杭州)300 中国 华东2(上海)600 中国 华东2金融云(上海)50 中国 华北2(北京)300 中国 华北2政务云(北京)100 中国 华北3(张家口)300 中国 华南1(深圳)150 中国 华南1金融云(深圳)50 中国 ...

授权实践

Policy内容如下:{"Statement":[{"Action":["odps:List","odps:CreateTable","odps:CreateInstance","odps:CreateResource","odps:CreateFunction"],"Effect":"Allow","Resource":["acs:odps:*:projects/<project_name>"]},{"Action":[...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

查询加速(MCQA)

基于DataWorks临时查询或数据开发启用MCQA功能 DataWorks的 临时查询 及 手动业务流程 模块默认开启MCQA功能,您无需手动开启。如果您需要关闭MCQA功能,请填写 钉钉群申请表单 加入钉钉群进行反馈处理。在 临时查询 模块执行查询作业,...

PyODPS的列运算

本文为您介绍如何进行PyODPS的列运算。前提条件 请提前完成如下操作:已 开通MaxCompute。已 开通DataWorks。在DataWorks上完成业务流程创建,本例使用DataWorks简单模式。详情请参见 创建业务流程。操作步骤 创建表并导入数据。下载 鸢尾...

管理IP白名单

部署DataWorks的设备默认在白名单内,通过DataWorks提交MaxCompute作业不受限制,您无需配置白名单。VPC网络下的IP白名单。设置VPC网络下的IP白名单时,您需要:获取VPC网络的VPC实例ID。配置VPC网络下的Endpoint。详情参见 Endpoint。添加...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
大数据开发治理平台 DataWorks 短信服务 GPU云服务器 弹性公网IP 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用