示例项目使用说明

本文介绍的项目都是完整的可编译可运行的项目,包括MapReduce、Pig、Hive和Spark。示例项目 示例名称如下所示,详情代码示例请参见 集群运行。MapReduce WordCount:单词统计 Hive sample.hive:表的简单查询 Pig sample.pig:Pig处理OSS...

快速入门

本文以开发WordCount MapReduce作业为例,为您介绍如何通过MaxCompute Studio编写MapReduce程序及生成JAR包,并在MaxCompute客户端上运行MapReduce作业。前提条件 请确认您已满足如下条件:已安装并配置MaxCompute客户端。更安装并配置...

EMR-3.30.x版本说明

同步了Flink社区1.11.1功能,SQL支持输出(MULTI INSERT)。升级HAS依赖至2.0.1。Impala 支持自定义配置 catalogd.flgs、impalad.flgs 和 statestored.flgs。升级Shiro至1.6.0版本。升级HAS依赖至2.0.1。Tez 优化AM的默认内存参数。...

使用MapReduce处理JindoFS上的数据

作业的输入和输出 MapReduce作业通常会指明输入或输出的位置(路径),并通过实现合适的接口或抽象类提供map和reduce函数。Hadoop的job client再加上其他作业的参数提交给ResourceManager,进行调度执行。这种情况下,我们直接修改作业的...

开发ODPS MR任务

MaxCompute提供MapReduce编程接口。您可以通过创建ODPS MR类型节点并提交任务调度,使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的数据。前提条件 上传并提交、发布使用的资源,详情请参见 创建并使用MaxCompute资源。创建...

开发ODPS MR任务

MaxCompute提供MapReduce编程接口。您可以通过创建ODPS MR类型节点并提交任务调度,使用MapReduce Java API编写MapReduce程序来处理MaxCompute中的数据。前提条件 上传并提交、发布使用的资源,详情请参见 创建并使用MaxCompute资源。创建...

数据开发常见问题

创建作业 在E-MapReduce中创建作业,实际只是创建了作业如何运行的配置,该配置中包括该作业要运行的JAR包、数据的输入输出地址以及一些运行参数。该配置创建好后,给它命名即定义了一个作业。执行计划 执行计划是将作业与集群关联起来的...

管理引导操作

引导操作类似手动执行,在集群创建时或者创建完成后,您可以通过引导操作功能,完成很目前E-MapReduce集群尚未支持的操作,例如:使用Yum安装已经提供的软件。直接下载公网上的一些公开的软件。读取OSS中您的自有数据。安装并运行一个...

Hadoop MapReduce作业配置

上面示例中,sleep作业并没有数据的输入输出,如果作业要读取数据,并输出处理结果(例如Wordcount),则需要指定数据的Input和Output路径。您可以读写E-MapReduce集群HDFS或OSS上的数据。如果需要读写OSS上的数据,只需要在填写Input和...

E-MapReduce数据迁移

本文介绍如何将E-MapReduce HDFS上的数据迁移到 文件存储 HDFS 版 文件系统。背景信息 阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线...

MapReduce

本文为您介绍MaxCompute支持的MapReduce编程接口及使用限制。MaxCompute提供个两版本的MapReduce编程接口:MaxCompute MapReduce:MaxCompute的原生接口,执行速度快、开发快捷、不暴露文件系统。MaxCompute扩展MapReduce(MR2):对...

扩展MapReduce(MR2)

相比于传统的MapReudce,MaxCompute提供的扩展MapReduce模型(简称MR2)改变了底层的调度和IO模型,可避免作业时冗余的IO操作。与MaxCompute相比,MR2在Map、Reduce等函数编写方式上基本一致,较大的不同点发生在执行作业时,示例请参见 ...

Hive连接方式

JDBC连接串路径可以参考“方式二:通过Beeline客户端连接HiveServer2”Connection con=DriverManager.getConnection("jdbc:hive2:/master-1-1:10000","root","");Statement stmt=con.createStatement();String sql="select*from sample...

使用日志服务收集Presto作业日志

本文为您介绍如何通过阿里云日志服务SLS收集Presto作业的日志。背景信息 由于EMR on ACK使用虚拟容器运行作业,作业运行完成后...说明 涉及的日志路径如下:标准日志输出路径:stdout。core dump日志输出路径:/data/trino/hs_err_pid1.log。

Hive作业调优

在第一个MapReduce中,Map的输出结果集合会随机分布到Reduce中,每个部分进行聚合操作,并输出结果。这样处理的结果是,相同的Group By Key有可能分发到不同的Reduce中,从而达到负载均衡的目的;第二个MapReduce任务再根据预处理的数据...

常见问题

代码示例中的为输入文件的路径,为输出文件的目录,x.x.x 为JAR包的具体版本号。share/hadoop/mapreduce/hadoop-mapreduce-examples-x.x.x.jar 和<PATH_TO_ALLUXIO>/client/alluxio-x.x.x.-client.jar 均为示例。

常见问题

本文介绍E-MapReduce Druid使用过程中遇到的一些常见问题以及解决方法。索引失败问题分析思路 当发现索引失败时,一般遵循如下排错思路:对于批量索引 如果curl直接返回错误,或者不返回,检查一下输入文件格式。或者curl加上-v 参数,观察...

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等...通过Kafka Connector导入 使用Kafka HDFS Connector也可以把Kafka数据导入到Hadoop生态,将sink的输出路径替换成JindoFS的路径即可。icmsDocProps={'productMethod':'created','language':'zh-CN',};

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或个阿里云ECS实例组成的。ECS实例 在E...

MapReduce常见问题

本文为您介绍在使用MapReduce时的常见问题。问题类别 常见问题 功能咨询 MapReduce的输入源可以是视图吗?MapReduce的结果写入到表或分区时,会覆盖还是追加数据?MapReduce中是否可以调用Shell文件?reduce.setup能否读入输入表?Mapper...

MapReduce开发手册

本文以EMR-3.27.0集群为例,通过以下示例为您介绍如何在E-MapReduce集群中开发MR作业。在MapReduce中使用OSS 在MapReduce中读写OSS,需要配置如下参数。说明 请确保在代码运行环境设置了环境变量ALIBABA_CLOUD_ACCESS_KEY_ID和ALIBABA_...

开发MapReduce

本文为您介绍如何在MaxCompute Studio上开发MapReduce,包括编写MapReduce、调试MapReduce、打包、上传和运行MapReduce。前提条件 您需要完成以下操作:已连接MaxCompute项目。更连接MaxCompute项目操作,请参见 管理项目连接。已创建...

使用Druid

E-MapReduce Druid本身资源不受YARN管控,在服务运行时容易发生资源抢夺。Hadoop作为基础设施,其规模通常较大,而E-MapReduce Druid集群较小,部署在同一集群上,由于规模不一致可能造成资源浪费,所以单独部署会更加灵活。创建Druid...

Jindo Job Committer使用说明

Smartdata 3.4.x之前版本支持JindoOssCommitter,Smartdata 3.4.x及后续版本,针对OSS Bucket开启版本功能情况,增加支持JindoOssDirectCommitter。背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来解决...

Jindo Job Committer使用说明

Smartdata 3.4.x之前版本支持JindoOssCommitter,Smartdata 3.4.x及后续版本,针对OSS Bucket开启版本功能情况,增加支持JindoOssDirectCommitter。背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来解决...

Jindo Job Committer使用说明

Smartdata 3.4.x之前版本支持JindoOssCommitter,Smartdata 3.4.x及后续版本,针对OSS Bucket开启版本功能情况,增加支持JindoOssDirectCommitter。背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来解决...

Jindo Job Committer使用说明

Smartdata 3.4.x之前版本支持JindoOssCommitter,Smartdata 3.4.x及后续版本,针对OSS Bucket开启版本功能情况,增加支持JindoOssDirectCommitter。背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来解决...

Jindo Job Committer使用说明

Smartdata 3.4.x之前版本支持JindoOssCommitter,Smartdata 3.4.x及后续版本,针对OSS Bucket开启版本功能情况,增加支持JindoOssDirectCommitter。背景信息 Job Committer是MapReduce和Spark等分布式计算框架的一个基础组件,用来解决...

实例类型

E-MapReduce集群由个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)和计算实例节点(Task)。不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如:主实例节点(Master):部署Hadoop HDFS的...

MapReduce作业提交

本文向您介绍如何使用Jar命令在MaxCompute客户端运行和提交MapReduce作业。MaxCompute客户端提供Jar命令用于运行MapReduce作业,举例如下。jar-conf \home\admin\myconf-resources a.txt,example.jar-classpath.\lib\example.jar:.\other_...

FLINK

FLINK任务类型用于执行Flink程序。本文为您介绍创建FLINK类型任务时涉及的参数,并提供了FLINK...input oss:/path/to/oss/to/data 和-output oss:/path/to/oss/to/result 用来指定作业的数据输入路径和数据输出路径,请您根据实际信息替换。

HDFS常见命令介绍

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。背景信息 HDFS常见命令如下表所示。命令 功能 mkdir 在HDFS文件系统中创建目录。touchz 在HDFS文件系统...

STREAM语句

背景信息 E-MapReduce支持SET和STREAM两种方法配置WriteStream参数,推荐使用STREAM方法配置WriteStream的必要参数,包括checkpointLocation、outputMode、triggerType和triggerIntervalMs。语法 CREATE STREAM queryName OPTIONS...

Hadoop Streaming

output 输出路径,本示例为/tmp/output。说明 hadoop-streaming-X.X.X.jar 中的 X.X.X 表示JAR包的具体版本号,需要根据实际集群中Hadoop的版本来修改。您可以在/usr/lib/hadoop-current/share/hadoop/tools/lib/目录下查看JAR包具体版本号...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...

E-MapReduce数据迁移方案

在开发过程中我们通常会碰到需要迁移数据的场景,本文介绍如何将自建集群数据迁移到E-MapReduce集群中。背景信息 适用范围:线下Hadoop到E-MapReduce迁移。线上ECS自建Hadoop到E-MapReduce迁移。迁移场景:HDFS增量上游数据源包括RDS增量...

DataWorks on EMR快速入门

DataWorks支持基于E-MapReduce创建Hive、Spark SQL、Presto和MR等节点,实现任务工作流的配置和定时调度、元数据管理及数据质量监控告警等功能,为用户提供一站式数据湖开发和治理的环境。本文为您介绍如何在DataWorks上快速使用EMR集群。...

SmartData使用说明(EMR-3.20.0~3.22.0版本)

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

Hive作业异常排查及处理

mapreduce.map.memory.mb=4096 mapreduce.reduce.memory.mb=4096 同时修改 mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 的JVM参数-Xmx 为 mapreduce.map.memory.mb 和 mapreduce.reduce.memory.mb 的80%。mapreduce.map.java....
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 物联网平台 对象存储
新人特惠 爆款特惠 最新活动 免费试用