使用Spark Structured Streaming实时处理Kafka数据

本文介绍如何使用阿里 Databricks 数据洞察创建的集群去访问外部数据源 E-MapReduce,并运行Spark Structured Streaming作业以消费Kafka数据。前提条件 已注册阿里账号,详情请参见 阿里账号注册流程。已开通 E-MapReduce服务。已...

集群

Q:如何购买Databricks数据洞察集群 请使用阿里账号进行购买,如需折扣优惠,请提工单或在产品群中联系我们享受折扣优惠。Q:可以使用阿里云子账号创建集群么?可以。但子账号必须通过主账号进行授权方可购买,权限包括:...

管理Notebook

本文介绍如何创建、打开、删除和导入Note等操作,帮助您管理Notebook。前提条件 已创建集群,详情请参见 创建集群。...问题反馈 您在使用阿里云Databricks数据洞察过程中有任何疑问,欢迎用钉钉扫描下面的二维码加入钉钉群进行反馈。

阿里云Databricks数据洞察云产品服务协议

阿里云Databricks数据洞察云产品服务协议,请参见 阿里产品服务协议(通用)。

阿里云Databricks数据洞察服务等级协议(SLA)

阿里云Databricks数据洞察服务等级协议(SLA)的详情,请参见 阿里云Databricks数据洞察服务等级协议。

独立RDS元数据库

本文介绍如何配置独立的阿里RDS,作为Databricks数据洞察集群的元数据。前提条件 已购买RDS,详情请参见 创建RDS MySQL实例。说明 本文以MySQL 5.7版本为例介绍。元数据库准备 创建hivemeta的数据库 详情请参见 创建数据库和账号 中的...

HBase

打通网络环境 登录 阿里云Databricks数据洞察控制台。进入DDI 数据源 点击 添加 选择 通用网络 打通,选择HBase数据库所在的VPC和vsw。登录 HBase控制台 添加DDI集群各个机器IP至访问白名单。创建HBase表准备数据,本实例使用的HBase表为:...

Python库管理

本文介绍在Databricks数据洞察控制台,执行Spark作业时,如何安装自定义的库或者第三方库。添加库 使用阿里账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域...

Redis

打通网络环境 登录 阿里云Databricks数据洞察控制台。进入DDI 数据源 点击 添加 选择 通用网络 打通,选择Redis数据库所在的VPC和vsw。登录 Redis控制台 添加DDI集群各个机器IP至访问白名单,或者在VPC登录处设置允许VPC内免密访问。使用...

什么是Databricks数据洞察

Databricks数据洞察包含以下组件:Spark SQL和DataFrames Spark SQL是用来处理结构化数据的Spark模块。DataFrames是被列化了的分布式数据集合,概念上与关系型数据库的表近似,也可以看做是R或Python中的data frame。Spark Streaming 实时...

PySpark及Python库使用

本文介绍如何使用阿里 Databricks数据洞察 Notebook 进行 PySpark 开发。重要 若要使用其他数据源进行数据开发,需开通相应服务。本示例采用OSS数据源。步骤一:创建 Databricks数据洞察集群 登录 阿里云Databricks数据洞察控制台。创建...

管理运维中心

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏,单击 项目空间。在 项目空间 页面,单击待操作项目所在行的 运行记录。单击上方的 概览 页签。展示当前项目...

创建集群

本节介绍如何使用Databricks数据洞察控制台创建集群。前提条件 已注册阿里账号,并完成实名认证。详情请参见 阿里账号注册流程。操作步骤 使用阿里账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面,选择所在的...

角色授权

首次使用Databricks数据洞察服务创建集群时,需要使用主账号为Databricks数据洞察服务授权名为AliyunDDIEcsDefaultRole的系统默认角色。同时需要您创建一个系统目录存储Bucket。背景信息 关于角色详细信息,具体可以参见 RAM角色概览。通过...

设置安全组白名单

属性 说明 规则方向 仅支持网络连接的 入方向 授权策略 仅支持 允许策略 协议类型 仅支持 TCP协议 端口范围 8443(knox)、10001(Spark Thrift Server)优先 无 授权对象 IP地址 操作步骤 登录阿里 Databricks 数据洞察控制台。...

数据源概览

本章节主要介绍如何使用Databricks数据洞察完成对多种数据源的读写,以及如何使用Databricks数据洞察完成与其他阿里产品数据源之间的网络连接。静态数据源 Databricks数据洞察支持直接读取静态数据源。CSV文件 JSON文件 Parquet文件 ORC...

产品架构

Databricks数据洞察构建在ECS之上,使用阿里对象存储服务(OSS)为核心存储。本文介绍Databricks数据洞察的产品架构。存储访问加速层方便您可以像操作HDFS上的数据一样访问OSS上的数据。目前,Databricks数据洞察提供了两种执行Spark作业...

用户管理

本文介绍如何通过Databricks 数据洞察的用户管理功能,管理集群DDI用户。DDI用户信息存储在集群自带的OpenLDAP中,主要用于在DDI集群内的身份认证。DDI用户可以用于访问链接与端口,查看组件Web UI时的用户身份认证,也可以在开启组件LDAP...

使用Databricks Delta优化Spark作业性能

OSS宽带 10Gbps 背景信息 Databricks数据洞察内置了Databricks商业版引擎,您可以利用Databricks数据洞察创建集群,实现在秒响应时间内处理PB级别的数据。本文示例制造100亿条数据,利用Databricks Delta的Data Skipping和ZOEDER ...

管理项目告警

添加联系人 登录阿里 Databricks 数据洞察控制台 在左侧导航栏单击 项目空间 单击 项目空间 中的 告警 在 联系人 区域,单击 添加;在 联系人 对话框中,输入 姓名、手机号码 和 Email 信息。分别单击 手机号码 和 Email 所在行的 获取...

机器学习开发示例

本文介绍如何使用阿里 Databricks 数据洞察的Notebook进行机器学习开发。前提条件 通过主账号登录 阿里 Databricks控制台。已创建集群,具体请参见 创建集群。已使用OSS管理控制台创建 非系统目录存储空间,详情请参见 控制台创建存储...

Notebook

Python package 需要通过Databricks数据洞察控制页面选择相应的python包。Q:如何配置Spark Application 资源 通过以下属性配置driver的资源:spark.driver.memory spark.driver.cores 通过以下属性配置executor的资源:spark.executor....

RDS(SQL Server)

登录Databricks数据洞察集群进入Notebook,代码实现SQL Server数据读写。示例文本下载:The_Sorrows_of_Young_Werther.txt 在Notebook中使用%spark读取OSS文件,并执行WordCount代码实现。spark/从oss读取数据到spark的rdd import org....

使用Notebook

HOME<PATH_TO_SPARK_HOME>#set driver memory to 8g spark.driver.memory 8g#set executor number to be 6 spark.executor.instances 6#set executor memory 4g spark.executor.memory 4g 问题反馈 您在使用阿里云Databricks数据洞察过程中...

释放集群

Databricks数据洞察控制台页面,选择所在的地域(Region)。在左侧导航栏中,单击 集群。设置释放。在集群管理页面,单击待释放集群所在行的释放。单击待释放集群的集群ID,在集群基础信息页面,单击集群操作>释放。在弹出的集群管理-...

MongoDB

MongoDB数据源与DDI网络打通 登录MongoDB管理控制台 数据库MongoDB管理控制台 点击上部选择实例所在 region 点击实例ID进入实例详情页面 查看 基本信息 找到对应的VPV和VSwitch 登录到databricks数据洞察集群 阿里Databricks控制台 ...

查看集群列表信息

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏中,单击 集群。集群管理 页面展示您所拥有的所有集群的基本信息,以及各集群支持的操作。参数 说明 集群ID/...

产品性能

本文介绍Databricks数据洞察采用的企业Spark引擎性能对比数据,Databricks Runtime(简写dbr)的性能及Delta Lake功能是本产品的核心优势。Databricks Runtime完全兼容开源版本Spark,并且相对开源Spark引擎TPC-DS平均性能有 3~5倍提升,...

Databricks Delta Lake数据入湖最佳实践

本章架构图 步骤一:创建Kafka集群和Databricks 数据洞察集群 1.登录 阿里E-MapReduce控制台。2.创建Kafka集群,详情参见 创建集群 3.登录 Databricks数据洞察控制台。4.创建集群,详情参见 创建集群。步骤二:Databricks 数据洞察集群...

数据湖元数据管理

Databricks 数据洞察DBR 7.3,Spark 3.0.1,Scala 2.12及之后版本,在创建集群选择元数据类型时支持数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库,您无需额外购买独立的元数据库,就可以实现多个引擎计算,...

产品优势

全托管的Databricks数据洞察大数据分析平台,可以让您从繁杂的环境运维、内核优化等工作中解脱出来,专注于开发Spark作业本身。本文介绍Databricks数据洞察的产品优势。高效稳定 产品内核使用Databricks商业版的Runtime和Delta Lake。与...

集群运维与监控

背景信息 目前Databricks数据洞察主要采用 阿里监控 服务,完整对接DBR指标体系,实现多维度、多实例、多时段的指标图表监控,用户可以根据业务情况,灵活自定义告警规则,摆脱底层的束缚,根据平台产品层面的能力,高效感知问题,运维...

RDS(MySQL)

4.登录Databricks数据洞察集群进入Notebook,代码实现MySQL数据读写。示例文本下载:The_Sorrows_of_Young_Werther.txt%spark import java.sql.{Connection,DriverManager,PreparedStatement} import java.util.Properties import org....

访问外部数据

背景信息 Databricks数据洞察为了满足您在计算任务里访问您在阿里上已有的数据,支持通过添加外部数据源的方式,打通集群到您自己VPC下的网络环境。绑定数据源 绑定数据源的本质是打通不同VPC之间的网络,即将数据源集群所在VPC与目标...

管理作业

Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦创建后不能修改。在左侧导航栏,单击 项目空间。在 项目空间 页面,单击待操作项目所在行的 作业编辑。在 作业编辑 区域,在需要操作的文件...

访问Web UI

Databricks数据洞察集群提供了多个Web UI的访问入口,包括Notebook、Spark UI、Yarn UI和Ganglia监控。增加安全组白名单 为了用户的数据安全,DDI提供了安全组白名单机制来访问集群Web UI。默认不添加白名单是不能进行访问的,具体添加入口...

Databricks数据洞察 vs Open-Source Delta Lake功能...

Databricks Runtime vs Apache Spark 下表中的 feature 列表来自 Databricks 官网(https://databricks.com/spark/comparing-databricks-to-apache-spark)Feature Apache Spark Databricks数据洞察 Built-in file system optimized for ...

弹性伸缩概述

弹性伸缩开启并配置完成后,当业务需求增长时Databricks数据洞察会自动为您增加Task节点以保证计算能力,当业务需求下降时Databricks数据洞察会自动减少Task节点以节约成本。应用场景 在以下场景中,开启Databricks数据洞察的弹性伸缩功能...

集群扩容

扩容操作步骤 登录阿里 Databricks 数据洞察控制台。在左侧导航栏的菜单下,单击 集群管理。选择想要扩容的集群,单击 集群ID 进入集群详情页面。在集群基础信息页面中单击 资源管理 按钮下的 扩容 按钮。按量付费集群扩容 在弹出的扩容...

Databricks Runtime版本说明

Databricks数据洞察的内核引擎是Databricks Runtime,Databricks Runtime包括Apache Spark,并在此基础上进行了大量的功能和性能优化,可以显著提高大数据分析的可用性、性能和安全性。Databricks Runtime版本与Databricks官方保持一致,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云虚拟主机 云服务器 ECS 域名 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用