python 作业-python 作业文档介绍内容-阿里云

Python作业开发

背景信息 Flink Python作业需要您在本地完成开发工作，Python作业开发完成后，再在Flink开发控制台上部署并启动才能看到业务效果。整体的操作流程详情请参见 Flink Python作业快速入门。Flink工作空间已安装下列软件包。软件包版本 apache...

Flink Python作业快速入门

本文带您快速体验Flink Python流作业和批作业的创建、部署和启动，以了解实时计算Flink版Python作业的操作流程。前提条件如果您使用RAM用户或RAM角色等身份访问，需要确认已具有Flink控制台相关权限，详情请参见权限管理。已创建Flink...

使用Python Client提交Presto作业

本文为您介绍如何使用Python Client编程的方式访问Trino On ACK服务并执行查询操作。背景信息 Trino JDBC使用和相关参数的更多信息，请参见 trino-python-client。前提条件已在E-MapReduce on ACK控制台创建Presto集群，详情请参见快速...

使用Python依赖

您可以在Flink Python作业中使用自定义的Python虚拟环境、第三方Python包、JAR包和数据文件等，本文为您介绍如何在Python作业中使用这些依赖。背景信息本文通过以下场景为您介绍如何使用Python依赖：使用自定义的Python虚拟环境使用第三...

Python SDK 快速开始

使用SDK创建（提交）作业 python SDK 的相关下载与安装请参阅相关下载与安装。v20151111 版本，提交作业需要指定集群 ID 或者使用匿名集群参数。本例子使用匿名集群方式进行，匿名集群需要配置 2 个参数,其中：可用的镜像 ID,可以使用系统...

Artifact

对于 SQL 作业是 SQL 文本以及依赖的 udf/connector 等，对于 JAR 作业是使用到的全部的 JAR 包和依赖文件，对于 Python 作业是要使用到的 py 文件以及 zip 包。sqlArtifact SqlArtifact SQL 作业必填信息。jarArtifact JarArtifact JAR ...

部署作业

部署Python作业需要已完成Python包开发，详情请参见 Python作业开发。部署JAR作业需要已完成JAR包开发，详情请参见 JAR作业开发。使用限制仅实时计算引擎VVR 4.0.0及以上版本支持部署Python作业。资源上传作业部署前，您可以根据需要将...

2023-04-13版本

SQL开发页面不再提供Jar和Python作业的创建，您可以直接在作业运维页面部署Jar作业和Python作业。历史上在开发界面创建的Jar和Python作业草稿可以在作业归档中查找。作业开发 Jar和Python作业部署优化优化创建流程，Jar和Python作业可直接...

Flink Python参考

使用JAR包如果您的Flink Python作业中使用了Java类，例如作业中使用了Connector或者Java自定义函数时，则需要指定Connector或者Java自定义函数所在的JAR包，详情请参见 JAR Dependencies。使用数据文件如果您的Flink Python作业中需要...

自定义标量函数（UDSF）

Flink全托管运行环境使用的是JDK 1.8，如果Python作业中依赖第三方JAR包，请确保JAR包兼容JDK 1.8。仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDSF开发说明 Flink为您提供了...

访问增强版HBase数据

请确保已根据作业形态完成相应操作：JDBC作业：JDBC开发实践 JAR作业：JAR作业开发实践 Python作业：Python作业开发实践操作步骤通过Lindorm-cli连接宽表引擎。如何连接，请参见通过Lindorm-cli连接并使用宽表引擎。通过Lindorm SQL，...

自定义表值函数（UDTF）

Flink全托管运行环境使用的是JDK 1.8，如果Python作业中依赖第三方JAR包，请确保JAR包兼容JDK 1.8。仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDTF开发说明 Flink为您提供了...

自定义聚合函数（UDAF）

Flink全托管运行环境使用的是JDK 1.8，如果Python作业中依赖第三方JAR包，请确保JAR包兼容JDK 1.8。仅支持开源Scala V2.11版本，如果Python作业中依赖第三方JAR包，请确保使用Scala V2.11对应的JAR包依赖。UDAF开发说明 Flink为您提供了...

通过DataWorks管理作业

作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何通过DataWorks对Lindorm计算引擎的各类作业进行开发和调度运维。前提条件已开通Lindorm计算引擎。如何开通，请参见开通与变配。已开通DataWorks服务。如何开通...

通过PySpark开发Spark应用

本文介绍了如何开发 AnalyticDB MySQL Spark Python作业，以及如何通过VirtualEnv技术打包Python作业的运行环境。前提条件已创建 AnalyticDB MySQL 湖仓版（3.0）。具体操作，请参见创建集群。已创建Job型资源组。具体操作，请参见新建...

作业配置说明

memory-overhead：适用于堆外内存开销较大的作业（例如Spark Python作业），Executor规格配置如下：spark.executor.cores=2 spark.executor.memory=8192m spark.executor.memoryOverhead=8192m xlarge-memory-overhead：适用于堆外内存开销...

概述

使用Python依赖实时计算Flink版集群已预装了Pandas、NumPy和PyArrow等常用的Python包，您可以在 Python作业开发页面，了解实时计算Flink版中已安装的第三方Python包列表。预装的Python包使用时需要在Python函数内部导入。示例如下。udf...

连接并使用实例

通过HDFS FUSE连接文件引擎通过HDFS FUSE连接并使用文件引擎计算引擎通过JDBC方式连接计算引擎 JDBC开发实践通过JAR方式连接计算引擎 JAR作业开发实践通过Python方式连接计算引擎 Python作业开发实践流引擎通过Lindorm-cli连接流...

配置Lindorm Spark节点

20 如果任务类型为Python，需要在configs参数中配置Python作业环境参数：参数说明示例值 spark.archives 运行环境路径。oss:/OSS_BUCKET/pyspark_conda_env.tar.gz spark.submit.pyFiles python文件路径。oss:/OSS_BUCKET/your_project....

本地运行和调试包含连接器的作业

本文为您介绍如何在开发者本地环境中运行和调试包含阿里云实时计算Flink版连接器的作业，以便快速验证代码的正确性，快速定位和解决问题，并节省云上成本。背景信息当您在...Python作业的开发和调试方法，详情请参见 Python作业开发。

访问CDC数据

spark.sql.catalog.lindorm_cdc.ltsTsEnabled Lindorm CDC数据源的配置项介绍 Lindorm CDC数据源的配置项如下表所示：配置项是否必填说明示例值 spark.sql.catalog.lindorm_cdc.username 必填：提交JAR作业或者Python作业。非必填（系统...

分场景排错指引

Python作业，如果Checkpoint慢怎么办？报错：Invalid versionName string 数据异常如何定位Flink无法读取源数据的问题？如何定位Flink无法将数据写入到结果表的问题？如何定位数据丢失的问题？不小心删除了角色或者变更了授权策略，导致...

Flink SQL作业快速入门

Python作业完整的开发流程示例，请参见 Flink Python作业快速入门。数据库实时入仓完整的操作流程示例，请参见数据库实时入仓快速入门。完成SQL作业部署上线后，您可以使用自动调优功能，提升资源利用率，请参见配置自动调优。基于Flink+...

配置作业部署信息

Python作业 包括引擎版本、Python Uri、Entry Module、Entry Point Main Arguments、Python Libraries、Python Archives、附加依赖文件、备注、Kerberos集群和作业标签。参数含义详情请参见部署作业。运行参数配置参数说明系统检查...

通过控制台管理作业

如何开发，请参见 JAR作业开发实践或 Python作业开发实践。已将作业上传至HDFS或OSS。如何上传至HDFS，请参见通过控制台上传文件。创建作业登录 Lindorm管理控制台。在页面左上角，选择实例所属的地域。在实例列表页，单击目标实例ID...

Flink JAR作业快速入门

本文带您快速体验Flink JAR流作业...Python作业完整的开发流程示例，请参见 Flink Python作业快速入门。数据库实时入仓完整的操作流程示例，请参见数据库实时入仓快速入门。基于Flink+Hologres搭建实时数仓。基于Flink+Paimon搭建流式湖仓。

管理资源队列

每个Flink项目空间都会有一个默认队列...SQL作业、JAR作业和Python作业部署操作，请参见部署作业。Session集群创建操作，请参见步骤一：创建Session集群。使用任务编排功能可以编排批作业运行的顺序，详情请参见任务编排（公测）。

作业调试

您可以使用作业调试功能模拟作业运行、检查输出结果，验证SELECT或...Flink JAR作业和Flink Python作业的调试方法，请参见 JAR作业调试或 Python作业调试。如果您需要了解Flink SQL作业的完整的操作流程示例，请参见 Flink SQL作业快速入门。

{"spark.sql.shuffle.partitions":"200"} Python作业配置模板和自定义参数说明如下：{"mainResource":"oss:/path/to/your/file.py","args":["arg1","arg2"],"configs":{"spark.hadoop.fs.oss.endpoint":"","spark.hadoop.fs.oss....

使用Apache Airflow调度MaxCompute

步骤一中编写的调度作业Python脚本。python Airiflow_MC.py 在系统的命令行窗口执行如下命令生成调度流程并测试调度作业。print the list of active DAGs airflow list_dags#prints the list of tasks the"tutorial"dag_id airflow list_...

2023-10-23版本

SQL作业开发支持标签搜索能力支持在SQL、JAR或Python作业部署时，针对作业设置自定义的作业标签。设置后您可以在作业运维页面，通过标签搜索到所有包含该标签或标签值的作业，便于您更好的管理作业。部署作业增强作业排序筛选能力在...

2023-06-21版本

云原生内存数据库Tair 支持Hive Kerberos 支持将Flink Jar或Python作业写入开启Kerberos认证的Hive集群中。注册Kerberos集群信息部署作业审计日志平台对接阿里云审计服务，您可以在审计服务平台查看到用户在平台上的操作记录。查看资源...

JAR作业开发

Flink JAR提供了更灵活的编程模型和API，可以自定义各种数据转换、操作和算子，适用于复杂的业务逻辑和数据处理需求。本文为您介绍Flink JAR作业的...Flink全托管还支持运行SQL和Python作业，开发方法请参见 SQL作业开发和 Python作业开发。

2022-09-19版本

作业状态集管理 SQL作业启动 JAR作业启动 Python作业启动作业停止定时调优定时调优功能针对业务上有明显波峰波谷的Flink作业，对于这类作业我们支持用户在平台设置好自定义的定时策略，在用户需要的时间将作业自动调整到用户预先设定好...

提交训练作业

PAI Python SDK提供了更易用的API（即HighLevel API），支持您将训练作业提交到PAI，并使用云上资源运行训练作业。本文为您介绍如何准备训练作业脚本，以及如何使用SDK提交训练作业。概要介绍 SDK提供了HighLevel的训练API：pai.estimator....

PythonArtifact

名称类型描述示例值 object 本数据结构代表 Python 类型作业必填的信息。pythonArtifactUri string Python 类型作业 URL 全路径。https://oss/bucket/test.py mainArgs string 启动参数。start from main entryModule string Python 的...

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件已在E-MapReduce控制台上创建Hadoop集群。创建集群详情，请参见创建集群。操作步骤通过SSH方式连接集群，详情请参见使用SSH连接主节点。新建文件 mapper.py。执行以下...

通过Python SDK开发Spark应用

本文主要介绍如何通过Python SDK提交Spark作业、查询Spark作业的状态和日志信息、结束Spark作业以及查询Spark历史作业。前提条件已安装Python环境，且Python版本为3.7及以上版本。已创建湖仓版（3.0）集群。具体操作，请参见创建湖仓版...

安装宽表SQL Driver

Python Lindorm面向Python语言应用开发提供了遵循Python语言 DB-API 接口规范的Driver。关于该Driver的安装和使用，请参见使用Python DB-API的应用开发。SQL的开发与测试需要编写在应用逻辑中的SQL语句建议在开发阶段先进行充分验证后再...

准备环境

在使用Python SDK收发消息前，您需按照本文提供的内容来准备环境。环境要求安装Python。更多信息，请参见安装...安装完成后，您可以执行 python-V 命令查看Python语言版本。安装SDK 执行以下命令，安装Python SDK。pip install mq_http_sdk

python 作业

新品推荐