基于Hadoop集群支持Delta Lake或Hudi存储机制

涉及模块 对应阿里云产品 说明 开源Hadoop 本地机房搭建Hadoop集群 云上虚拟机搭建Hadoop集群 阿里云E-MapReduce 原始数据存储在Hadoop集群中。基于Hadoop集群支持Delta Lake或Hudi湖仓一体架构 前提条件 已创建MaxCompute项目(非External...

从自建HDFS迁移数据

自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

弹性伸缩概述

使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化...相关文档 基于Hadoop集群支持Delta Lake或Hudi存储机制的湖仓一体方案,请参见 基于Hadoop集群支持Delta Lake或Hudi存储机制。

管理Hive Catalog

网络连通后,Flink就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建目录,并将Hive配置文件和Hadoop依赖上传至目标路径。登录 OSS管理控制台。单击 Bucket列表。单击目标Bucket名称。在 oss:/${bucket}/artifacts/...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

MaxCompute+Hadoop搭建实践

准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端界面输入如下命令:[has@emr-header-1 root]$hive-创建库 create database if not exists myhive;切换...

准备工作

环境准备 已创建阿里云E-MapReduce的Hadoop集群。具体操作,请参见 创建集群。已下载E-MapReduce的最新 SDK,SDK包的名称格式为emr-datasources_shaded_*.jar,emr-datasources_shaded_*.jar中包含Tablestore相关的Spark批流Source和Sink。...

设置Dataphin实例的计算引擎为Hadoop

如下图所示:已创建集群:可以通过E-MapReduce 5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:NameNode Hadoop支持添加同集群多个HDFS地址,只要有一个地址校验成功,即可完成元数据采集。例如 host=192.xxx.xx.xxx,...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

使用Druid

对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....

什么是EMR on ECS

与自建Hadoop集群对比 开源大数据开发平台EMR与自建Hadoop集群的优势对比如下表所示。对比项 阿里云EMR 自建Hadoop集群 成本 支持按量和包年包月付费方式,集群资源支持灵活调整,数据分层存储,资源使用率高。无额外软件License费用。需...

数据源

本文将解答与数据源相关的问题。Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

在文件存储 HDFS 版上使用Apache Tez

本文主要介绍在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Tez。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

扩容磁盘

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。注意事项 云盘扩容后无法缩容,建议您合理规划存储空间。操作步骤 进入节点管理页面。登录EMR on ECS控制台。在...

配置自建RDS

本文介绍如何配置自建的阿里云RDS,作为E-MapReduce(简称EMR)上DataLake集群、Custom集群或Hadoop集群的元数据。前提条件 已购买RDS MySQL实例(EMR所有版本均支持MySQL 5.7,仅EMR-3.35.0以上版本、EMR-5.0.0以上版本同时支持MySQL 5.7...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop...

缩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduce的Hadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

在文件存储 HDFS 版上使用Apache HBase

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Apache HBase 将Hadoop中配置的core-site.xml复制到${HBASE_HOME}/conf目录下。cp...

Hive Metastore使用加密文件访问RDS

DataLake或Custom集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hive$HIVE_CONF_DIR/hive.jceks Hadoop集群类型 sudo mv/tmp/hive.jceks$HIVE_CONF_DIR sudo chown hadoop$HIVE_CONF_DIR/hive.jceks 在EMR控制台目标集群Hive...

使用Fuse-DFS挂载文件存储 HDFS 版

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:配置Fuse-DFS 在Hadoop客户端上安装依赖并载入FUSE模块。执行以下命令,安装依赖。yum...

查看专属集群监控信息

目标专属集群监控概览 在 主要信息 区域,您可以查看以下信息:DU使用率(即文件系统使用率)和总量 磁盘使用率和总量 CPU使用率 内存使用率 专属集群中运行任务的数量 目标专属集群监控详情 在 资源监控 区域,先选择查看资源监控数据的...

扩容集群

Hadoop集群类型中通过弹性伸缩模块创建的弹性伸缩组(创建详情请参见 配置弹性伸缩(仅Hadoop集群类型)),无法进行该操作。操作步骤 重要 集群扩容操作不会重启存量节点上的应用进程。进入节点管理页面。登录 E-MapReduce控制台。在顶部...

管理LDAP认证

前提条件 已创建Hadoop集群,详情请参见 创建集群。使用限制 EMR-3.34.0及后续版本或EMR-4.8.0及后续版本的Hadoop集群,支持一键开启LDAP认证。开启LDAP认证 进入Hue页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择...

管理节点组(Hadoop、Data science和EMR Studio集群

本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大...如果需要查看弹性伸缩记录,详情请参见 查看弹性伸缩记录(仅Hadoop集群类型)。

开启或关闭弹性伸缩(仅Hadoop集群类型)

前提条件 已完成弹性伸缩的配置,详情请参见 配置弹性伸缩(仅Hadoop集群类型)。注意事项 当伸缩组内节点数为0时,您才可以关闭弹性伸缩。当伸缩组内节点不为0时,您需要先为伸缩组设置缩容规则或者修改最大实例数为0,直至伸缩组内节点...

HDFS Balancer

DataLake集群 tailf hadoop-hdfs-balancer-master-1-1.c-xxx.log Hadoop集群 tailf hadoop-hdfs-balancer-emr-header-1.cluster-xxx.log 说明 命令中的 hadoop-hdfs-balancer-master-1-1.c-xxx.log 和 hadoop-hdfs-balancer-emr-header-xx....

文件存储 HDFS 版和对象存储OSS双向数据迁移

步骤一:Hadoop集群挂载 文件存储 HDFS 版 实例 在Hadoop集群中配置 文件存储 HDFS 版 实例。具体操作,请参见 挂载文件存储 HDFS 版文件系统。步骤二:Hadoop集群部署JindoSDK 下载最新的 JindoSDK安装包。本文以jindosdk-4.5.0为例。执行...

网络开通流程

您需要开通网络连接以便访问外网或VPC中的目标服务(例如指定IP或域名、RDS、HBase集群、Hadoop集群等)。本文为您介绍MaxCompute与目标服务间的网络结构及支持的网络开通方案。免责声明 MaxCompute提供的公网与VPC访问能力目前属于免费...

数据上云场景

Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见 Sqoop工具的介绍。MMA利用Meta Carrier连接您的Hive Metastore服务,获取Hive Metadata,并利用这些数据生成用于创建MaxCompute表和...

Ranger概述

Apache Ranger提供集中式的权限管理框架,可以对Hadoop生态中的HDFS、Hive和YARN等组件...Hadoop集群 mysql-urangeradmin-prangeradmin update ranger.x_portal_user set password="ceb4f32325eda6142bd65215f4c0f371"where login_id="admin;

修改集群名称

Name String 是 bi_hadoop 集群新的名称,要求和创建集群时一致。长度限制为1-64个字符,只允许包含中文、字母、数字、短划线(-)和下划线(_)。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 接口查看最新的阿里...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见 开通云原生数据湖分析服务。您已登录云原生数据库分析DLA...

MySQL连接器

背景信息 本文为您介绍MySQL连接器相关的内容和操作,具体如下:配置MySQL连接器 类型映射 示例:查询MySQL 下推(Pushdown)前提条件 已创建DataLake集群或Hadoop集群,并选择了Presto服务,或者创建单独的Presto集群,详情请参见 创建...

Hive访问Iceberg数据

前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群,支持Hive读写Iceberg的数据。操作步骤 ...

Hadoop Streaming

前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见 创建集群。操作步骤 通过SSH方式连接集群,详情请参见 使用SSH连接主节点。新建文件 mapper.py。执行以下命令,打开文件 mapper.py。vim/home/hadoop/mapper.py 按...

迁移开源HDFS的数据到文件存储 HDFS 版

基于阿里云ECS搭建Hadoop集群(下称"迁移集群"),用于访问 文件存储 HDFS 版 实例和迁移数据,并满足以下条件:迁移集群与 文件存储 HDFS 版 实例在相同区域、相同可用区。迁移集群与 文件存储 HDFS 版 实例的挂载点使用相同阿里云VPC网络...

使用云原生AI监控大盘

Cluster:集群监控大盘 Nodes:节点监控大盘 TrainingJobs:训练任务监控大盘 Quota:资源配额监控大盘 集群监控大盘 具体操作,请参见 方式一:使用公网Ingress访问AI运维控制台。集群监控大盘有以下可供您查看的指标:GPU Summary Of ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 云数据库 Redis 版 云数据库专属集群 开源大数据平台 E-MapReduce 轻量应用服务器 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用