Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 资源组。单击...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全低成本的HDFS数据迁移方案。适用场景 ...

准备工作

当阿里云E-MapReduceHadoop集群在VPC中时,请确保已绑定表格存储的实例E-MapReduceHadoop集群所在的VPC。具体操作,请参见(可选)绑定VPC。已开通DataV服务并制作大屏。具体操作,请参见 开通DataV服务。数据准备 产品 数据收集 ...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache FlinkE-MapReduce Hadoop构建的企业级大数据计算平台...

MapReduce常见问题

Hadoop MapReduce的源码,能否直接应用于MaxCompute MapReduce?MapReduce如何实现排序?MapReduce中的Backups是什么?开发MapReduce 开发MapReduce时,如何在命令行传入多个资源?在Main方法中如何判断一个表为空表?在MaxCompute ...

Spark对接Kafka

背景信息 E-MapReduce上的Hadoop集群Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-integration structured-streaming-kafka-integration。E-MapReduce-demo:github地址。访问...

实例类型

E-MapReduce集群由多个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)计算实例节点(Task)。不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如:主实例节点(Master):部署Hadoop HDFS的...

使用MapReduce处理JindoFS上的数据

具体命令如下:hadoop jar/usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar terasort<in><out>替换输入输出路径,即可处理JindoFS上的数据:hadoop jar/usr/lib/hadoop-current/share/hadoop/mapreduce/...

阿里云账号角色授权

阿里云E-MapReduce服务(例如Hadoop和Spark),在运行时需要有访问其他阿里云资源和执行操作的权限。每个E-MapReduce集群必须有服务角色以及ECS应用角色。本文为您介绍EMR角色授权的流程及其关联的角色。背景信息 阿里云E-MapReduce为确定...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备 本示例在华北1(杭州)进行测试,版本选择EMR-3.17.0。创建Hadoop集群,在 可选服务 中选择 Flume。...

EMR-3.22.x之前版本说明

修复关于Hive和Hadoop的部分缺陷。EMR-3.0.1 支持交互式,支持统一的表管理,使用外部统一数据库保存Hive meta,所有使用外部Hive meta的集群都共享同一份meta信息。升级emr-core到1.2.4版本,优化了OSS读写的性能。Spark升级到2.0.2版本。...

概述

E-MapReduce增强型Druid E-MapReduce Druid基于Apache Druid做了大量的改进,包括与E-MapReduce和阿里云周边生态的集成、方便的监控与运维支持、易用的产品接口等,实现即买即用和7*24免运维。E-MapReduce Druid目前支持的特性如下所示:...

开启权限认证

设置ACL相关命令有 hadoop fs-getfacl[-R] hadoop fs-setfacl[-R][-b|-k-m|-x<acl_spec><path>]|[-set<acl_spec><path>]。dfs.permissions.superusergroup 默认值为hadoop。超级用户组的名称。属于该组的用户都具有超级用户的权限。保存...

查看Ranger日记审计信息

例如ranger-acl(Ranger权限控制)和hadoop-acl(HDFS自带权限控制)等。说明 HDFS鉴权首先会查看HDFS自带权限控制(hadoop-acl),只有自带权限控制拒绝访问时才会去检验Ranger所配置的权限(ranger-acl)。您可以根据该字段判断权限控制...

JVM内存调优

非HA集群 您可以在EMR控制台的HDFS服务的 配置 页面,在搜索区域,搜索参数 hadoop_namenode_heapsize hadoop_secondary_namenode_heapsize,参数值根据实际需求进行调整。说明 配置完成后,需要重启相应的NameNode或SecondaryNamenode...

常见问题

本文汇总了Alluxio使用时的常见问题。错误提示:No FileSystem for scheme:alluxio 如何排查...HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-examples-x.x.x.jar <PATH_TO_ALLUXIO>/client/alluxio-x.x.x.-client.jar 均为示例。

使用Hadoop作为元仓计算引擎进行元仓初始化

亚信DP 5.3 HadoopMapReduce。Cloudera Data Platform 7.x:Tez。说明 设置了执行引擎后,元仓租户的计算设置、计算源、任务等都使用设置的Hive执行引擎。重新初始化后,计算设置、计算源、任务等将被初始化为新设置的执行引擎。元数据...

Zeppelin常见问题

E-MapReduceHadoop集群上的Zeppelin与开源版本一致,没有对接LDAP。如何设置Zeppelin Note的权限?您可以在Zeppelin页面,单击 图标,设置权限。Zeppelin执行时无法正常启动Interpreter 影响版本:EMR-5.6版本。报错现象:报错信息如下。...

搭建Hadoop环境

Hadoop的核心部件是HDFS(Hadoop Distributed File System)和MapReduce:HDFS:是一个分布式文件系统,可用于应用程序数据的分布式存储和读取。MapReduce:是一个分布式计算框架,MapReduce的核心思想是把计算任务分配给集群内的服务器...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储分析,提供了一个既能处理结构化、半结构化数据,又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖...

JindoFS介绍使用

JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS的访问;提供块存储模式(Block),以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式(SDK...

管理用户

前提条件 已创建E-MapReduceHadoop集群,详情请参见 创建集群。创建用户 使用SSH方式登录集群,详情请参见 登录集群。执行以下命令,创建新账号。opt/apps/hue/build/env/bin/hue createsuperuser 输入新用户名、电子邮件,然后输入密码...

元数据性能测试

NNbench的jar包位于${HADOOP_HOME}/share/hadoop/mapreduce目录下,${HADOOP_HOME}为测试机器中的Hadoop 安装目录,NNbench的jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar,使用方法如下。本文所有命令均在${HADOOP_HOME}/...

在文件存储 HDFS 版上使用Apache Tez

mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/yarn/lib/*:./hadoop-...

基于Hadoop集群支持Delta Lake或Hudi存储机制

创建外部数据湖连接 参数 说明 异构数据平台类型 选择 阿里云E-MapReduce/Hadoop集群。网络连接 选择已创建的网络连接。操作详情请参见 创建外部数据湖连接。选择外部数据源 选择已创建的外部数据源。操作详情请参见 创建外部数据湖连接。...

文件存储 HDFS 版对象存储OSS双向数据迁移

步骤三:数据迁移 为Hadoop集群挂载好 文件存储 HDFS 版 实例安装OSS客户端Jindo SDK后,使用Hadoop MapReduce任务(DistCp)即可实现数据迁移。迁移数据的操作如下所示。实践一:将 文件存储 HDFS 版 上的数据迁移至对象存储OSS 执行...

OSS/OSS-HDFS的性能优化最佳实践

如果您在运行MapReduce或Spark任务,还有以下选择:对于提交MapReduce任务,可以通过Hadoop参数 mapreduce.job.maps mapreduce.job.reduces 控制并行的执行程序数量。对于提交Spark执行程序,可以通过选项-num-executors 或者Spark参数 ...

管理节点组(Hadoop、Data scienceEMR Studio集群)

本文为您介绍如何新增、修改删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大数据离线处理,计算型实例(vCore:vMem=1 vCPU:2 GiB)用于模型训练。前提条件 已...

技术支持的范围方式

开源组件如下:Hadoop,包括HDFS、YARN和MapReduce。数据集成组件,例如,Flume和Sqoop等。数据存储组件,例如,HDFS、HBase、Kudu、Iceberg、DeltaLake、Hudi和Kafka等。计算引擎组件,例如,Spark、Hive、Tez、Druid、Flink和Phoenix等。...

安装文件系统SDK

WordCount样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount \ inputDir outputDir Grep样例${HADOOP_HOME}/bin/hadoop jar \${HADOOP_HOME}/share/hadoop/...

设置Dataphin实例的计算引擎为Hadoop

包括MapReduce和Tez。单击 确认并开始数据建设。后续步骤 完成Dataphin实例计算引擎的设置后,系统支持为创建的项目空间添加相应的计算源,为项目空间提供计算和存储的资源。如何创建项目空间及添加计算源,请参见 创建通用项目。

初始化Kerberos环境

utility-1 30-hdfs-JOURNALNODE]#hadoop jar/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 1 WARNING:Use"yarn jar"to launch YARN applications.Number of Maps=10 Samples per Map=1 Wrote input...

调整YARN队列

Hue进行SQL交互查询时,需要向YARN申请资源进行计算,如果需要对计算资源进行管理隔离,则需要配置HiveSQLSparkSQL的队列。本文为您介绍如何调整YARN队列。前提条件 已创建E-MapReduceHadoop集群,详情请参见 创建集群。操作步骤 ...

兼容版本SDK概述

类型 接口 是否兼容 Mapper void map(KEYIN key,VALUEIN value,org.apache.hadoop.mapreduce.Mapper.Context context)是 Mapper void run(org.apache.hadoop.mapreduce.Mapper.Context context)是 Mapper void setup(org.apache.hadoop....

集群吞吐性能测试

TestDFSIO的jar包位于开源Hadoop版本的${HADOOP_HOME}/share/hadoop/mapreduce目录下,其中${HADOOP_HOME}为测试机器中的Hadoop安装目录,jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar,您可通过执行以下命令,查看...

添加配置

前提条件 已创建E-MapReduceHadoop集群,详情请参见 创建集群。操作步骤 进入详情页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 资源组。单击上方的 集群管理 页签。在 集群管理 页面,...

数据迁移

本文为您介绍如何迁移自建Kudu集群的数据到E-MapReduce上的Hadoop集群。前提条件 您已自建Kudu集群。已创建E-MapReduceHadoop集群,并选择了Kudu服务,详情请参见 创建集群。背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区...

切换为Hadoop原生的JobCommitter

E-MapReduce(简称EMR)集群默认使用JindoCommitter加速大数据作业,解决OSS等对象存储在Spark、MapReduce等作业使用原生Hadoop JobCommitter时遇到的性能一致性等问题。如果您不想使用默认的JindoCommitter,则可以参照本文切换为Hadoop...

Superset(仅对存量用户开放)

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例,更多的数据库类型访问方式请参见 SQLAlchemy。登录Superset。您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名密码...

Jindo Job Committer使用说明

背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来处理分布式任务写数据的一致性问题。Jindo Job Committer是阿里云E-MapReduce针对OSS场景开发的高效Job Committer的实现,基于OSS的Multipart Upload接口,...
共有69条 < 1 2 3 4 ... 69 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构 物联网平台
新人特惠 爆款特惠 最新活动 免费试用