Spark作业原生运维与监控

背景信息 Databricks数据洞察提供了原生的监控运维UI,例如Spark UI和YARN UI,用户可根据自己的需求进行查询。本文主要介绍原生UI透露出来的日志监控和指标查询,配合平台侧的运维与监控能力,更好的服务于用户,运维Spark作业。集群Web ...

通过JDBC连接Spark Thrift Server提交Spark作业

本文介绍通过JDBC连接Spark Thrift Servert并成功提交Spark作业。前提条件 连接Spark Thrift Server需要校验用户名和密码,请进行用户认证配置,请参见:用户管理 DDI集群Spark Thrift Server默认端口号为10001,请确认成功添加安全组白...

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎,您可以利用Databricks数据洞察创建集群,实现在秒级响应时间内处理PB级别的数据。本文示例制造100亿条数据,利用Databricks Delta的Data Skipping和ZOEDER ...

提交Spark作业

本文为您介绍如何通过这三种方式提交Spark作业。前提条件 已在EMR on ACK控制台创建Spark集群,详情请参见 创建集群。注意事项 在本文的示例中,JAR包已经直接打包在了镜像中。如果您使用的是自己的JAR包,您可以将其上传到阿里云OSS。上传...

Spark作业配置

以下分别展示如何填写创建Spark作业和Pyspark作业的参数:创建Spark作业。新建一个Spark作业,作业名称为Wordcount,应用参数填写示例如下:在命令行下提交完整的命令。spark-submit-master yarn-client-driver-memory 7G-executor-memory ...

创建和执行Spark作业

本文介绍如何在数据湖分析控制台创建和执行Spark作业。准备事项 您需要在提交作业之前先创建虚拟集群。说明 创建虚拟集群时注意选择引擎类型为 Spark。如果您是子账号登录,需要配置子账号提交作业的权限,具体请参考 细粒度配置RAM子账号...

使用ECI运行Spark作业

在Kubernetes集群中使用ECI来运行Spark作业具有弹性伸缩、自动化部署、高可用性等优势,可以提高Spark作业的运行效率和稳定性。本文介绍如何在 ACK Serverless集群 中安装Spark Operator,使用ECI来运行Spark作业。背景信息 Apache Spark是...

使用Arm节点运行Spark作业

EMR on ACK默认部署在X86架构的节点上,您也可以通过配置,将Spark作业运行在Arm类型的弹性容器实例(ECI)上。本文为您介绍如何使用Arm节点运行Spark作业。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 快速入门。已...

Airflow调度DLA Spark作业

DLA Spark提供了命令行工具包,支持通过Spark-Submit和Spark-SQL方式来提交Spark作业。您可以直接将开源Spark命令行工具包替换成DLA Spark命令行工具包,并进行简单的配置即可使用Airflow调度DLA Spark作业。重要 云原生数据湖分析(DLA)...

Spark作业异常排查及处理

512 Error:Java heap space 报错原因:Spark作业Task处理的数据量较大,但Executor JVM申请的内存量不足,从而出现java.lang.OutOfMemoryError报错。解决方案:在EMR控制台中Spark服务的配置页面,针对不同的场景调大 spark.executor....

使用ECI弹性调度Spark作业

使用阿里云弹性容器实例(Elastic Container Instance)调度Spark作业,可以不受限于ACK集群的节点计算容量,灵活动态地按需创建Pod(容器组),有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Spark作业。背景信息 如果您需要使用更...

使用Arm虚拟节点运行Spark作业

EMR on ACK默认部署在x86架构的节点上,您也可以通过配置将Spark作业运行在Arm虚拟节点(弹性容器实例ECI)上。本文为您介绍如何使用Arm虚拟节点运行Spark作业。索引 前提条件 EMR和EMR on ACK介绍 操作步骤 前提条件 已在EMR on ACK控制台...

使用日志服务收集Spark作业日志

本文为您介绍如何通过阿里云日志服务收集Spark作业的日志。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 快速入门。已开通阿里云日志服务SLS,详情请参见 快速入门。操作步骤 启用日志服务组件Logtail,详情请参见 ...

配置并查看Spark作业监控与报警

本文为您介绍如何通过阿里云ARMS服务收集并查看Spark作业的监控指标,以及如何基于监控指标设置报警。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 快速入门。已开通阿里云应用实时监控服务ARMS,详情请参见 ...

KillSparkApp-强行停止运行中的Spark作业

强行停止运行中的Spark作业。接口说明 地域的公网接入地址:adb.<region-id>.aliyuncs.com 。示例:adb.cn-hangzhou.aliyuncs.com 。地域的 VPC 接入地址:adb-vpc.<region-id>.aliyuncs.com 。示例:adb-vpc.cn-hangzhou.aliyuncs.com 。...

基于JindoFS存储YARN MR或SPARK作业日志

本文为您介绍如何将MapReduce和Spark作业日志配置到JindoFS或OSS上。背景信息 E-MapReduce集群支持按量计费以及包年包月的付费方式,满足不同用户的使用需求。对于按量计费的集群随时会被释放,而Hadoop默认会把日志存储在HDFS上,当集群...

查询作业列表

Job Type String SPARK 作业的类型,可能的取值有:SPARK,SPARK_STREAMING,ZEPPELIN FailAct String STOP 失败策略,可能的取值:CONTINUE(提过本次作业),STOP(停止作业)CustomVariables String {"scope":"project"} 自定义变量。...

查询作业信息

返回数据 名称 类型 示例值 描述 Type String SPARK 作业的类型,可能的取值有:SPARK,SPARK_STREAMING,ZEPPELIN LastInstanceId String FJI-0BA97D0BB8F3*最后一次执行的实例ID。EnvConf String {"key":"value"} 环境变量设置。...

创建数据开发作业

Type String 是 SPARK 作业类型,取值如下:SPARK:spark作业,使用spark-submit提交 ZEPPELIN:提交zeppelin notebook,使用该作业类型,作业的params参数为notebook id SPARK_STREAMING:提交spark流处理作业 FailAct String 否 STOP ...

通过Spark Distribution SQL Engine开发Spark SQL作业

当您需要实时分析数据或通过JDBC协议开发Spark SQL作业时,可以通过 AnalyticDB for MySQL 的Spark Distribution SQL Engine开发Spark SQL作业。通过Spark Distribution SQL Engine可以更方便地利用SQL分析、处理和查询数据,提升SQL执行...

Spark SQL作业配置

本文介绍如何配置Spark SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

Spark Shell作业配置

本文介绍如何配置Spark Shell类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

修改数据开发作业

如果是spark作业,该参数的内容会作为spark-submit的参数。ParamConf String 否 {"date":"${yyyy-MM-dd}"} 参数设置。CustomVariables String 否 {\"scope\":\"PROJECT\",\"entityId\":\"FP-80C2FDDBF35D9CC5\",\"variables\":[{\"name\":\...

管理作业

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏,单击 项目空间。在 项目空间 页面,单击待操作项目所在行的 作业编辑。在 作业编辑 区域,在需要操作的文件...

查询作业运行实例列表

JobType String 否 SPARK 作业的类型,可能的取值有:SPARK,SPARK_STREAMING,ZEPPELIN InstanceId String 否 FJI-BCCAE48B90CC*作业实例ID。您可以调用DescribeFlowJob查看作业实例ID。TimeRange String 否 {"type":"range","from":...

Spark Streaming作业配置

本文介绍如何配置Spark Streaming类型的作业。前提条件 已创建好项目,详情请参见 项目管理。已准备好作业所需的资源,以及作业要处理的数据。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部...

作业日期设置

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏,单击 项目空间。在项目空间页面,单击待操作项目所在行的 作业编辑。进行作业设置。在作业编辑页面,选择...

克隆作业

返回数据 名称 类型 示例值 描述 Id String FJ-06D12BA16419*新产生的作业ID。RequestId String BCE475E4-129D-43D2-8595-C80B80CBC114 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=CloneFlowJob&ProjectId=FP-C62EEC30F773*&Id=FJ...

作业提交示例

前提条件 在Databricks数据洞察产品中创建一个集群,详情请参见 创建集群 已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 创建存储空间。警告 首次使用DDI产品创建的Bucket为系统目录Bucket,不建议存放数据,您需要再创建一个...

停止作业实例

调用KillFlowJob接口,停止作业实例。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

提交运行作业

返回数据 名称 类型 示例值 描述 Id String FJI-9DDAAA3ADA5F*运行的作业实例ID。RequestId String B46F8A2A-B46B-415C-8A9C-B01B99B775A2 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=SubmitFlowJob&RegionId=...

使用Spark SQL进行作业开发

本文介绍如何使用Spark SQL作业开发,将ODS层表数据通过DWD层过滤后,写入ADS层。前提条件 已创建 AnalyticDB MySQL 湖仓版(3.0)集群,且集群至少有16 ACU的计算预留资源和24 ACU的存储预留资源。详情请参见 创建湖仓版集群。已创建Job型...

产品架构

Databricks数据洞察构建在...目前,Databricks数据洞察提供了两种执行Spark作业的方式,包括通过Notebook或者在项目空间里新建Spark作业。同时,Databricks数据洞察还提供了监控告警、元数据管理、权限管理等功能,方便您对集群资源进行管理。

Python库管理

本文介绍在Databricks数据洞察控制台,执行Spark作业时,如何安装自定义的库或者第三方库。添加库 使用阿里云账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域...

什么是Databricks数据洞察

Databricks数据洞察包含以下组件:Spark SQL和DataFrames Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。Spark Streaming 实时...

产品优势

全托管的Databricks数据洞察大数据分析平台,可以让您从繁杂的环境运维、内核优化等工作中解脱出来,专注于开发Spark作业本身。本文介绍Databricks数据洞察的产品优势。高效稳定 产品内核使用Databricks商业版的Runtime和Delta Lake。与...

使用Spark SQL进行作业开发

本文介绍如何使用Spark SQL进行外表作业开发。前提条件 已创建 AnalyticDB MySQL 湖仓版(3.0)集群。详情请参见 创建湖仓版集群。已创建Job型资源组。详情请参见 创建资源组。已开通OSS服务并创建存储空间和项目。具体操作,请参见 开通...

访问外部数据

本文介绍如何在Databricks数据洞察实现访问外部数据源的需求。背景信息 Databricks数据洞察为了满足您在计算任务里访问您在阿里云上已有的数据,支持通过添加外部数据源的方式,打通集群到您自己VPC下的网络环境。绑定数据源 绑定数据源的...

使用Spark Structured Streaming实时处理Kafka数据

本文介绍如何使用阿里云 Databricks 数据洞察创建的集群去访问外部数据源 E-MapReduce,并运行Spark Structured Streaming作业以消费Kafka数据。前提条件 已注册阿里云账号,详情请参见 阿里云账号注册流程。已开通 E-MapReduce服务。已...

使用Notebook

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏中,单击 Notebook。在 Notebook 区域,选择待操作的集群。在 DataInsight Notebook 页面,单击创建好的Note...
共有95条 < 1 2 3 4 ... 95 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
实时计算 Flink版 批量计算 云原生数据湖分析 (文档停止维护) 开源大数据平台 E-MapReduce 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用