spark作业-spark作业文档介绍内容-阿里云

Spark作业原生运维与监控

背景信息 Databricks数据洞察提供了原生的监控运维UI，例如Spark UI和YARN UI，用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询，配合平台侧的运维与监控能力，更好的服务于用户，运维Spark作业。集群Web ...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件连接Spark Thrift Server需要校验用户名和密码，请进行用户认证配置，请参见：用户管理 DDI集群Spark Thrift Server默认端口号为10001，请确认成功添加安全组白...

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎，您可以利用Databricks数据洞察创建集群，实现在秒级响应时间内处理PB级别的数据。本文示例制造100亿条数据，利用Databricks Delta的Data Skipping和ZOEDER ...

提交Spark作业

本文为您介绍如何通过这三种方式提交Spark作业。前提条件已在EMR on ACK控制台创建Spark集群，详情请参见创建集群。注意事项在本文的示例中，JAR包已经直接打包在了镜像中。如果您使用的是自己的JAR包，您可以将其上传到阿里云OSS。上传...

Spark作业配置

以下分别展示如何填写创建Spark作业和Pyspark作业的参数：创建Spark作业。新建一个Spark作业，作业名称为Wordcount，应用参数填写示例如下：在命令行下提交完整的命令。spark-submit-master yarn-client-driver-memory 7G-executor-memory ...

创建和执行Spark作业

本文介绍如何在数据湖分析控制台创建和执行Spark作业。准备事项您需要在提交作业之前先创建虚拟集群。说明创建虚拟集群时注意选择引擎类型为 Spark。如果您是子账号登录，需要配置子账号提交作业的权限，具体请参考细粒度配置RAM子账号...

使用ECI运行Spark作业

在Kubernetes集群中使用ECI来运行Spark作业具有弹性伸缩、自动化部署、高可用性等优势，可以提高Spark作业的运行效率和稳定性。本文介绍如何在 ACK Serverless集群中安装Spark Operator，使用ECI来运行Spark作业。背景信息 Apache Spark是...

使用Arm节点运行Spark作业

EMR on ACK默认部署在X86架构的节点上，您也可以通过配置，将Spark作业运行在Arm类型的弹性容器实例（ECI）上。本文为您介绍如何使用Arm节点运行Spark作业。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见快速入门。已...

Airflow调度DLA Spark作业

DLA Spark提供了命令行工具包，支持通过Spark-Submit和Spark-SQL方式来提交Spark作业。您可以直接将开源Spark命令行工具包替换成DLA Spark命令行工具包，并进行简单的配置即可使用Airflow调度DLA Spark作业。重要云原生数据湖分析（DLA）...

Spark作业异常排查及处理

512 Error:Java heap space 报错原因：Spark作业Task处理的数据量较大，但Executor JVM申请的内存量不足，从而出现java.lang.OutOfMemoryError报错。解决方案：在EMR控制台中Spark服务的配置页面，针对不同的场景调大 spark.executor....

使用ECI弹性调度Spark作业

使用阿里云弹性容器实例（Elastic Container Instance）调度Spark作业，可以不受限于ACK集群的节点计算容量，灵活动态地按需创建Pod（容器组），有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Spark作业。背景信息如果您需要使用更...

使用Arm虚拟节点运行Spark作业

EMR on ACK默认部署在x86架构的节点上，您也可以通过配置将Spark作业运行在Arm虚拟节点（弹性容器实例ECI）上。本文为您介绍如何使用Arm虚拟节点运行Spark作业。索引前提条件 EMR和EMR on ACK介绍操作步骤前提条件已在EMR on ACK控制台...

使用日志服务收集Spark作业日志

本文为您介绍如何通过阿里云日志服务收集Spark作业的日志。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见快速入门。已开通阿里云日志服务SLS，详情请参见快速入门。操作步骤启用日志服务组件Logtail，详情请参见 ...

配置并查看Spark作业监控与报警

本文为您介绍如何通过阿里云ARMS服务收集并查看Spark作业的监控指标，以及如何基于监控指标设置报警。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见快速入门。已开通阿里云应用实时监控服务ARMS，详情请参见 ...

KillSparkApp-强行停止运行中的Spark作业

强行停止运行中的Spark作业。接口说明地域的公网接入地址：adb.<region-id>.aliyuncs.com 。示例：adb.cn-hangzhou.aliyuncs.com 。地域的 VPC 接入地址：adb-vpc.<region-id>.aliyuncs.com 。示例：adb-vpc.cn-hangzhou.aliyuncs.com 。...

基于JindoFS存储YARN MR或SPARK作业日志

本文为您介绍如何将MapReduce和Spark作业日志配置到JindoFS或OSS上。背景信息 E-MapReduce集群支持按量计费以及包年包月的付费方式，满足不同用户的使用需求。对于按量计费的集群随时会被释放，而Hadoop默认会把日志存储在HDFS上，当集群...

查询作业列表

Job Type String SPARK 作业的类型，可能的取值有：SPARK，SPARK_STREAMING，ZEPPELIN FailAct String STOP 失败策略，可能的取值：CONTINUE（提过本次作业），STOP（停止作业）CustomVariables String {"scope":"project"} 自定义变量。...

查询作业信息

返回数据名称类型示例值描述 Type String SPARK 作业的类型，可能的取值有：SPARK，SPARK_STREAMING，ZEPPELIN LastInstanceId String FJI-0BA97D0BB8F3*最后一次执行的实例ID。EnvConf String {"key":"value"} 环境变量设置。...

创建数据开发作业

Type String 是 SPARK 作业类型，取值如下：SPARK：spark作业，使用spark-submit提交 ZEPPELIN：提交zeppelin notebook，使用该作业类型，作业的params参数为notebook id SPARK_STREAMING：提交spark流处理作业 FailAct String 否 STOP ...

通过Spark Distribution SQL Engine开发Spark SQL作业

当您需要实时分析数据或通过JDBC协议开发Spark SQL作业时，可以通过 AnalyticDB for MySQL 的Spark Distribution SQL Engine开发Spark SQL作业。通过Spark Distribution SQL Engine可以更方便地利用SQL分析、处理和查询数据，提升SQL执行...

Spark SQL作业配置

本文介绍如何配置Spark SQL类型的作业。前提条件已创建好项目，详情请参见项目管理。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的 ...

Spark Shell作业配置

本文介绍如何配置Spark Shell类型的作业。前提条件已创建好项目，详情请参见项目管理。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的 ...

如果是spark作业，该参数的内容会作为spark-submit的参数。ParamConf String 否 {"date":"${yyyy-MM-dd}"} 参数设置。CustomVariables String 否 {\"scope\":\"PROJECT\",\"entityId\":\"FP-80C2FDDBF35D9CC5\",\"variables\":[{\"name\":\...

管理作业

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。在作业编辑区域，在需要操作的文件...

查询作业运行实例列表

JobType String 否 SPARK 作业的类型，可能的取值有：SPARK，SPARK_STREAMING，ZEPPELIN InstanceId String 否 FJI-BCCAE48B90CC*作业实例ID。您可以调用DescribeFlowJob查看作业实例ID。TimeRange String 否 {"type":"range","from":...

Spark Streaming作业配置

本文介绍如何配置Spark Streaming类型的作业。前提条件已创建好项目，详情请参见项目管理。已准备好作业所需的资源，以及作业要处理的数据。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部...

作业日期设置

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏，单击项目空间。在项目空间页面，单击待操作项目所在行的作业编辑。进行作业设置。在作业编辑页面，选择...

克隆作业

返回数据名称类型示例值描述 Id String FJ-06D12BA16419*新产生的作业ID。RequestId String BCE475E4-129D-43D2-8595-C80B80CBC114 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=CloneFlowJob&ProjectId=FP-C62EEC30F773*&Id=FJ...

作业提交示例

前提条件在Databricks数据洞察产品中创建一个集群，详情请参见创建集群已使用OSS管理控制台创建非系统目录存储空间，详情请参见创建存储空间。警告首次使用DDI产品创建的Bucket为系统目录Bucket，不建议存放数据，您需要再创建一个...

停止作业实例

调用KillFlowJob接口，停止作业实例。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

提交运行作业

返回数据名称类型示例值描述 Id String FJI-9DDAAA3ADA5F*运行的作业实例ID。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例请求示例 http(s):/[Endpoint]/?Action=SubmitFlowJob&RegionId=...

使用Spark SQL进行作业开发

本文介绍如何使用Spark SQL作业开发，将ODS层表数据通过DWD层过滤后，写入ADS层。前提条件已创建 AnalyticDB MySQL 湖仓版（3.0）集群，且集群至少有16 ACU的计算预留资源和24 ACU的存储预留资源。详情请参见创建湖仓版集群。已创建Job型...

产品架构

Databricks数据洞察构建在...目前，Databricks数据洞察提供了两种执行Spark作业的方式，包括通过Notebook或者在项目空间里新建Spark作业。同时，Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能，方便您对集群资源进行管理。

Python库管理

本文介绍在Databricks数据洞察控制台，执行Spark作业时，如何安装自定义的库或者第三方库。添加库使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域...

什么是Databricks数据洞察

Databricks数据洞察包含以下组件：Spark SQL和DataFrames Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合，概念上与关系型数据库的表近似，也可以看做是R或Python中的data frame。Spark Streaming 实时...

产品优势

全托管的Databricks数据洞察大数据分析平台，可以让您从繁杂的环境运维、内核优化等工作中解脱出来，专注于开发Spark作业本身。本文介绍Databricks数据洞察的产品优势。高效稳定产品内核使用Databricks商业版的Runtime和Delta Lake。与...

使用Spark SQL进行作业开发

本文介绍如何使用Spark SQL进行外表作业开发。前提条件已创建 AnalyticDB MySQL 湖仓版（3.0）集群。详情请参见创建湖仓版集群。已创建Job型资源组。详情请参见创建资源组。已开通OSS服务并创建存储空间和项目。具体操作，请参见开通...

访问外部数据源

本文介绍如何在Databricks数据洞察实现访问外部数据源的需求。背景信息 Databricks数据洞察为了满足您在计算任务里访问您在阿里云上已有的数据，支持通过添加外部数据源的方式，打通集群到您自己VPC下的网络环境。绑定数据源绑定数据源的...

使用Spark Structured Streaming实时处理Kafka数据

本文介绍如何使用阿里云 Databricks 数据洞察创建的集群去访问外部数据源 E-MapReduce，并运行Spark Structured Streaming作业以消费Kafka数据。前提条件已注册阿里云账号，详情请参见阿里云账号注册流程。已开通 E-MapReduce服务。已...

使用Notebook

在Databricks数据洞察控制台页面，选择所在的地域（Region）。创建的集群将会在对应的地域内，一旦创建后不能修改。在左侧导航栏中，单击 Notebook。在 Notebook 区域，选择待操作的集群。在 DataInsight Notebook 页面，单击创建好的Note...

spark作业

新品推荐