本文为您介绍MapReduce的常见问题。

MapReduce的输入源可以是视图吗?

不可以,只能是表。

MapReduce的结果写入到表或分区时,会覆盖还是追加数据?

会覆盖掉原有的表数据或者分区数据。

不使用Combiner时输出正常,使用Combiner后Reduce没有输入,是什么原因?

Reduce输出的单个Record和Map输出的Key-Value对不一致,导致上述情况发生。

MapReduce执行时,如何在命令行传入多个资源?

用逗号分隔符进行分隔,输入命令jar -resource resource1,resource2,..即可。

MapReduce中是否可以调用Shell文件?

不能,会被沙箱阻挡。

reduce.setup能否读入输入表?

不能读入输入表,只能读入缓存表。

Mapper中输入表中的每条Record数据,是否可以按列名读取?

可以。输入表中的每条Record数据不仅可以按序号record.get(i)读取,还可以按照列名来获取Record,例如record.get("size")

write(Record key, Record value) 与write(Record record)的区别是什么?

  • write(Record key, Record value):输出中间结果,例如key.set(“id”, v1),value.set(“size”, v2)。Map产出的中间结果,需要网络传输给Reduce,没关联表进行类型推断,所以必须声明字段类型用于序列化。输出的字段类型是MaxCompute的字段类型。
    job.setMapOutputKeySchema(SchemaUtils.fromString(“id:string”));  
    job.setMapOutputValueSchema(SchemaUtils.fromString(“size:bigint”));               
  • write(Record record):输出结果到最终表,有表进行类型推断,没必要声明字段类型。

如何在本地调用MaxCompute服务器运行MapReduce任务?

正常情况下,MaxCompute的Jar包需要在命令行工具上执行Jar命令来执行,具体语法请参见MapReduce作业提交

您也可以通过模拟的方式整合到自己的工程中,方法如下所示:
  1. 设置包依赖。

    除了基本的SDK,还需要其他的几个依赖包,您可在客户端工具的lib文件夹中找到。lib文件夹中也包含了SDK的Jar包,建议您在导入包的时候把最新的客户端工具lib文件夹中的Jar包全部导进来。

  2. 上传Jar包。

    将在本地测试通过的MapReduce程序,打成Jar包并上传,假设此Jar包的名字是mr.jar,详情请参见资源操作

  3. 设置运行方式。
    配置Jobconf ,如下所示。
    **配置MaxCompute连接信息。
    Account account = new AliyunAccount(accessid, accesskey);
    Odps odps = new Odps(account);
    odps.setEndpoint(endpoint);
    odps.setDefaultProject(project);
    **获取session。
    SessionState ss = SessionState.get();
    ss.setOdps(odps);
    ss.setLocalRun(false);  **设置false,表示在服务器上跑。如果要在本地调试,直接设置为true。
    **正常的设置jobconf等代码。
    Job job = new Job();
    String resource = “mr.jar”;
    job.setResources(resource); **这一步类似Jar命令的jar -resources mr.jar。
    **后面的代码为正常的MapReduce代码规则。
    job.setMapperClass(XXXMapper.class);
    job.setReducerClass(XXXReducer.class);                            

    配置完成之后,您可以直接在Eclipse中,单击运行按钮,不需要再单击 run as

报错BufferOverflowException,如何处理?

  • 问题现象:执行 MaxCompute MapReduce 时,报错如下。
    FAILED: ODPS-0123131:User defined function exception - Traceback:
         java.nio.BufferOverflowException
         at java.nio.DirectByteBuffer.put(Unknown Source)
         at com.aliyun.odps.udf.impl.batch.TextBinary.put(TextBinary.java:35)   
  • 问题原因:一次写入的数据太大,导致Buffer溢出。
  • 解决办法:目前MaxCompute的单个字段可以写入的数据类型如下。
    String      8MB
    Bigint      -9223372036854775807 ~ 9223372036854775807
    Boolean     True/False
    Double      -1.0 10308 ~ 1.0 10308
    Date        0001-01-01 00:00:00 ~ 9999-12-31 23:59:59                  

Main方法中如何判断一个表为空表?

您可以使用如下方法判断一个表是否为空表。
Odps odps=SessionState.get().getOdps();
Table table=odps.tables().get(“tableName”);
RecordReader recordReader=table.read(1);
if(recordReader.read()==null){
//TO DO      

MaxCompute上的MapReduce任务是否会对分区的数据进行覆盖?

会。MaxCompute上的MapReduce任务如果输出到一个分区中,如果分区中已经存在数据,会先清空这个分区内的数据再写入,即覆盖写入。

在MapOnly例子中,为什么程序没有指定输出Table的Schema格式?

输出表的schema是需要预先创建好的,在create table的时候指定。MapOnly程序内部不用指定Schema,可以直接输出。

执行MaxCompute MapReduce时,报错Resource not found如何处理?

提交作业时,要用-resources指定需要的资源,多个资源用逗号分隔。

使用MapReduce报错Class Not Found,是什么原因?

执行MapReduce时,以下两种情况会报此错误:
  • classpath参数的类名写错,因此要写上完整的包名。
  • 打包Jar的时候出错,注意打包时要把SRC中的源码都选上。

本地运行时,报错 java.io.IOException是什么原因?

  • 问题现象:本地运行时,报错如下。
    Exception in thread “main“ java.io.IOException: ODPS-0740001: Too many local-run maps: 101, must be <= 100(specified by local-run parameter ‘odps.mapred.local.map.max.tasks‘)     
  • 问题原因:local-run maps默认是100。
  • 解决方法:您可以在Eclipse中加上-Dodps.mapred.local.map.max.tasks=200

执行 MaxCompute MapReduce 时,报错ODPS-0010000,是什么原因?

  • 问题现象:报错信息如下。
    ODPS-0010000: System internal error - get input pangu dir meta fail.
  • 问题原因:出现上述报错,是因为您还未创建分区,或是因为分区数据未到位,您就开始使用此分区。

运行MaxCompute MapReduce作业时,报错Table not found,如何处理?

  • 问题现象:报错信息如下。
    Exception in thread "main" com.aliyun.odps.OdpsException: Table not found: project_name.table_name.
  • 解决办法:新MapReduce接口的Table Info Builder是ProjectName和TableName,两个接口分别设置为Project和Table。

执行MapReduce或UDF时,报错ODPS-0123144,如何处理?

  • 问题现象:详细报错信息如下。
    FAILED: ODPS-0123144: Fuxi job failed - WorkerRestar
  • 问题原因:出现上述报错,是因为集群的备节点在计算的过程中出现超时的情况,导致主节点认为备节点死掉,故报错。目前超时10分钟,即会报错,暂时不支持用户配置。
  • 解决方法:这个报错比较常见的原因是Reduce里做了大循环,例如存在长尾数据或者笛卡尔积。您需要尽量减少这种大循环的情况。

在使用JAVA语言运行UDF、MapReduce或者Graph作业时,报错java.security.AccessControlException,如何处理?

  • 问题现象:在使用Java语言运行UDF/MapReduce/Graph作业时,报错如下。
    FAILED: ODPS-0123131:User defined function exception - Traceback:
    java.lang.ExceptionInInitializerError
     ...
    Caused by: java.security.AccessControlException: access denied ("java.lang.RuntimePermission" "getProtectionDomain")
      at java.security.AccessControlContext.checkPermission(AccessControlContext.java:472)       
  • 问题原因:出现上述报错,是因为您的代码违反了沙箱限制,详情请参见Java沙箱
  • 解决办法:您需要访问外部的资源解决此报错。但MaxCompute目前不支持访问外部资源,请将外部的处理逻辑和涉及的数据一起放到 MaxCompute上进行访问。您需要读取一些配置文件,详情请参见使用资源示例

Mapper是否支持同一表格多分区输入?

Mapper支持同一表格多分区输入,同一张表的多个分区可以理解为独立的两张表。

Mapper可以直接从Record中读取分区数据段的信息吗?

Mapper无法从Record中获取分区字段信息,但是可以使用如下代码。PartitionSpec为分区信息。
PartitionSpec ps = context.getInputTableInfo().getPartitionSpec();
String area = ps.get(“area”);        

Label和分区是什么关系?

Label是给不同的输出处打上的一个标签,当输出的时候可以识别是从哪里输出的。

Hadoop中可以选择多个Node进行分布处理(一个Node表示一台机器),那么MaxCompute MapReduce进行分布处理时,该如何设置Node?

您不需要自行搭建分配Node,这正是MaxCompute的优点之一。

当运行MapReduce时,MaxCompute底层会根据算法决定使用的数据分片。

MaxCompute MapReduce或UDF中,如何设置Java代码,才能打印出日志?

推荐如下方法:
  • 可以在代码中用System.out.println打印日志,对应日志输出位置是在logview的stdout中。
  • 使用出现异常时,客户端会返回异常信息,不需要打印日志信息。
  • 使用common logging,日志输出到stderr中,可以在logview的stderr看到。

任务日志Logview的保存时间是多久?

目前Logview的保存时间为7天。但是Logview中涉及的stderror和stdout文件保存时间由底层存储决定。

MapReduce中是否可以只有Map?

可以,MapReduce支持Map-Only。如果是Map-Only作业,需要显式指定Reducer数量为零job.setNumReduceTasks(0)

MaxCompute MapReduce中,Reduce还没开始执行第一句,便报错为内存溢出,是什么原因?

  • 问题原因:某些数据特别大,下载到内存便溢出了。
  • 解决方案:把Combiner去掉或者在Combiner中限制Sizeset odps.mapred.map.min.split.size=512;

MaxCompute MapReduce中,为什么要指定两个Jar,Libjars和Classpath?

本地客户端会执行一些作业配置等操作,涉及远程执行。因此本地有一个执行器,远程有一个执行器。

远程执行器执行加载远程的Classpath ,即-libjars mapreduce-examples.jar。本地执行器加载本地Classpath,所以也要指定-classpath lib/mapreduce-examples.jar

Hadoop MapReduce的源码,能否直接应用于MaxCompute MapReduce?

不能。MaxCompute MapReduce与Hadoop MapReduce API有一定差别,但整体风格一致。您需要修改Hadoop的源码,并在MaxCompute MapReduce SDK下编译通过后,才能在MaxCompute上运行。

MapReduce读取资源次数超过限制,如何处理?

  • 问题现象:执行MapReduce时,报错如下。
    ODPS-0730001: Exceed maximum read times per resource       
  • 问题原因:出现上述报错,是因为资源文件读取的次数太多。
  • 解决方法:请检查代码中读取对应资源的代码逻辑。一般情况下,资源读取在setup中执行一次即可,不要在Map/Reduce阶段中多次读取。

MapReduce如何实现排序?

排序代码如下。
//设置排序的字段(这里根据i1,i2两个字段进行排序)。
job.setOutputKeySortColumns(new String[] { "i1", "i2" });
//设置字段的排序顺序(这里设置i1为正序排序,i2为逆序排序)。
job.setOutputKeySortOrder(new SortOrder[] { SortOrder.ASC, SortOrder.DESC });        
关于 setOutputKeySortOrder 方法的用法,如下所示。
public void setOutputKeySortOrder(JobConf.SortOrder[] order)
功能:设置Key排序列的顺序。
参数: Order表示排序列的顺序。可选值为ASC(升序)、DESC(降序)。       

MapReduce中的Backups是什么?

Backups就是一种加速调优。MaxCompute会查看您的任务,如果存在一些任务的工作量特别大, 便为其开启备份任务,两个任务执行一样的数据,结果用最先执行结束的任务,因此存在Backups。但是如果任务非常大,Backups也无法起作用,因为原本的任务和Backups都没有执行完成。

在MapReduce程序中使用第三方类,打了一个Assembly的Jar包,运行时报找不到类的错误,应该如何配置?

MaxCompute MapReduce及UDF程序在分布式环境中运行时受到Java沙箱的限制(MapReduce作业的主程序则不受此限制),具体限制请参见Java沙箱

如果您只是需要处理Json,建议您直接使用Gson,同时无需打包带Gson的Class。Java开源组件里提供了很多字符串转日期的方法,例如SimpleDateFormat等。

结果表中会保留两个MapReduce计算之后的重复数据吗?

会。查询数据时,会得到两条一样的数据。

在DataWorks上执行任务时Logview总是显示Exceed maximum read times [256] per resource,会对结果有影响吗?

详细报错信息如下。
Exceed maximum read times [256] per resource: 'RES_META_DICT_CITY'

在代码中循环引用资源会导致超过Resource数量限制,请参见MapReduce使用限制

在运行MapReduce过程中OOM内存溢出应该调整什么参数?

内存溢出通常是由于内存不足导致的,可以通过调整JVM内存参数(odps.stage.mapper.jvm.mem和odps.stage.reducer.jvm.mem)解决。例如set odps.stage.mapper.jvm.mem = 2048将内存调整为2GB。

在运行MapReduce的时候,开启了600个Reducer加载一个配置文件,但是配置文件很小且报错java.lang.OutOfMemoryError是什么原因?

详细报错信息如下。
java.lang.OutOfMemoryError: Java heap space

运行MapReduce时,部分限制可能导致上述报错,请参见MapReduce使用限制原生SDK概述进行配置。

执行MapReduce时报错ODPS-0420095是什么原因?

  • 报错信息如下。
    Exception in thread "main" java.io.IOException: com.aliyun.odps.OdpsException: ODPS-0420095: Access Denied - The task is not in release range: LOT
  • 问题原因:可能因为MaxCompute开发者版资源下的项目,仅支持MaxCompute SQL(支持使用UDF)、PyODPS作业任务,暂不支持MapReduce、Spark等其它任务。

使用开源兼容MapReduce在MaxCompute上运行,报错显示下标越界怎么处理?

建议您使用MaxCompue的Mapreduce接口进行代码编写。同时,非必须场景下建议使用Spark替代MapReduce。

在MapReduce中使用资源,为什么报错文件太多?

  • 问题原因:在MapReduce中使用资源时,报错如下。
     Caused by: com.aliyun.odps.OdpsException: java.io.FileNotFoundException: temp/mr_XXXXXX/resource/meta.user.group.config (Too many open files)
  • 问题原因:单个作业引用的资源数量不能超过256个,否则报错。Table和Archive按照一个单位计算 。更多限制请参见MapReduce使用限制