应用场景

MongoDB提供二级索引功能满足动态查询的需求,利用MongoDB的map-reduce聚合框架进行多维度的数据分析。其他各领域应用 游戏应用:使用云数据库MongoDB作为游戏服务器的数据库存储用户信息。用户的游戏装备、积分等直接以内嵌文档的形式存储...

基本概念

Map/Reduce Map和Reduce分别支持对应的map/reduce方法、setup方法及cleanup方法。setup方法在map/reduce方法之前调用,每个Worker调用且仅调用一次。cleanup方法在map/reduce方法之后调用,每个Worker调用且仅调用一次。相关的使用示例请...

使用限制

配置项名称 默认值 是否可配置 说明 Instance内存占用[256 MB,12 GB]内存限制 odps.stage.mapper(reducer).mem 和 odps.stage.mapper(reducer).jvm.mem 2048 MB+1024 MB 是 单个Map Instance或Reduce Instance占用Memory,有框架Memory...

资源使用

您可以在Map/Reduce中读取MaxCompute资源,Map/Reduce的任意Worker都会将资源加载到内存中,以供您的代码使用。相关的使用示例请参见 使用资源示例。

扩展MapReduce(MR2)

与MaxCompute相比,MR2在MapReduce等函数编写方式上基本一致,较大的不同点发生在执行作业时,示例请参见 Pipeline示例。MR2模型产生背景 传统的MapReduce模型要求在经过每一轮MapReduce操作后,得到的数据结果必须存储到分布式文件系统...

使用限制

配置项名称 默认值 是否可配置 说明 Instance内存占用[256 MB,12 GB]内存限制 odps.stage.mapper(reducer).mem 和 odps.stage.mapper(reducer).jvm.mem 2048 MB+1024 MB 是 单个Map Instance或Reduce Instance占用Memory,有框架Memory...

MapReduce作业提交

说明 如果在Map/Reduce函数中读取了其他MaxCompute资源,则这些资源名称也需要被添加到 resource_name_list 中。资源之间使用逗号分隔,使用跨项目空间使用资源时,需要前面加上 PROJECT/resources/。例如,-resources otherproject/...

初始化Kerberos环境

Reduce Framework Map input records=10 Map output records=20 Map output bytes=180 Map output materialized bytes=331 Input split bytes=1390 Combine input records=0 Combine output records=0 Reduce input groups=2 Reduce ...

MapReduce

本文仅对MapReduce的基本原理做简单介绍,更多详情请参见 Hadoop Map/Reduce教程。说明 您无法通过MapReduce读写 外部表 中的数据。应用场景 MapReduce支持下列场景:搜索:网页爬取、倒排索引、PageRank。Web访问日志分析:分析和挖掘用户...

MapReduce错误码(ODPS-07CCCCX)

ODPS-0720171:Invalid IO sort buffer PARSER 1 指定的 io sort buffer 不在(64,odps.mapred.map/reduce.memory)范围内。修改 io sort buffer 值。ODPS-0720181:Classpath resource between comma must not be empty PARSER 1 ClassPath的...

CDP集群高安全Kerberos+Ranger使用

Reduce Framework Map input records=10 Map output records=20 Map output bytes=180 Map output materialized bytes=331 Input split bytes=1390 Combine input records=0 Combine output records=0 Reduce input groups=2 Reduce ...

Hive作业调优

内存参数 您可以通过设置以下参数,对MapReduce阶段的内存进行调优:Map阶段 参数 描述 示例 mapreduce.map.java.opts 默认参数,表示JVM堆内存。Xmx2048m mapreduce.map.memory.mb 默认参数,表示整个JVM进程占用的内存,计算方法为 堆...

MapReduce API

PyODPS DataFrame支持MapReduce API,您可以分别编写 map 和 reduce 函数(map_reduce 可以只有 mapper 或者 reducer 过程)。wordcount 的示例如下。encoding=utf-8>>>from odps import ODPS>>>from odps import options>>>options....

本地运行

odps:my_project>jar-l com.aliyun.odps.mapred.example.WordCount wc_in wc_out Summary: counters: 10 map-reduce framework combine_input_groups=2 combine_output_records=2 map_input_bytes=4 map_input_records=1 map_output_...

Hive

Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成Map/Reduce任务来执行。操作步骤 初始化Spark。val spark:SparkSession=SparkSession.builder().config("hive.metastore...

Sort示例

This is the trivial map/reduce program that does absolutely nothing other*than use the framework to fragment and sort the input values.*/public class Sort { static int printUsage(){ System.out.println("sort<input><output>...

什么是向量检索服务

索引水平扩展:采用非对等分片方法实现分布式检索,支持有限精度下索引的快速合并,与Map-Reduce计算模型可有效结合。异构计算:支持大批量高吞吐的离线检索加速,支持GPU构建邻居图索引,成功实现小批量+低延时+高吞吐的资源利用。

从OSS迁移数据

milliseconds taken by all map tasks=5194 Total megabyte-milliseconds taken by all map tasks=5318656 Map-Reduce Framework Map input records=1 Map output records=0 Input split bytes=132 Spilled Records=0 Failed Shuffles=0 ...

Spark Shell和RDD基础操作

创建RDD示例:通过集合来创建RDD val data=Array(1,2,3,4,5)val distData=sc.parallelize(data)通过外部数据集构建RDD val distFile=sc.textFile("data.txt")RDD构建成功后,您可以对其进行一系列操作,例如MapReduce等操作。例如,运行...

PyODPS DataFrame的代码运行环境

map/apply/map_reduce/自定义聚合:访问其他MaxCompute表,MaxCompute Executor中通常不支持访问Endpoint/Tunnel Endpoint,也没有PyODPS包可用,因而不能直接使用ODPS入口对象或者PyODPS DataFrame,也不能从自定义函数外部传入这些对象。...

使用MapReduce处理JindoFS上的数据

框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。作业的输入和输出 MapReduce作业通常会指明输入或输出的位置(路径...

计算成本控制

减少对象构造开销 对于MapReduce阶段每次都会用到的Java对象,避免在Map/Reduce函数里构造,可以放到Setup阶段,避免多次构造产生的开销。{.Record word;Record one;public void setup(TaskContext context)throws IOException {/创建...

Common错误码(ODPS-00CCCCX)

本文为您介绍Common错误码列表、触发条件及处理方法。...使用Python 2编写自定义函数,或者在SQL语句中增加 limit 关键字,将作业拆分为MapReduce两个Stage。ODPS-0030001:Authorization exception 无权限 1 权限问题。需要完成授权操作。

文件存储 HDFS 版和对象存储OSS双向数据迁移

milliseconds taken by all map tasks=10264552 Total megabyte-milliseconds taken by all map tasks=10510901248 Map-Reduce Framework Map input records=14 Map output records=0 Input split bytes=1755 Spilled Records=0 Failed ...

JindoTable SDK模式归档和解冻命令介绍

A directory to locate map-reduce temp files.Must not be a local file system directory.'hdfs:/tmp/<current user>/jindotable-policy/' by default.<log directory>A directory to locate log files,'/tmp/<current user>/' by default....

二次排序示例

This is an example ODPS Map/Reduce application.It reads the input table that*must contain two integers per record.The output is sorted by the first and*second number and grouped on the first number.*/public class ...

使用Argo Workflow编排动态DAG Fan-out/Fan-in任务

展开查看YAML示例 apiVersion:argoproj.io/v1alpha1 kind:Workflow metadata:generateName:dynamic-dag-map-reduce-spec:entrypoint:main#claim a OSS PVC,workflow can read/write file in OSS through PVC.volumes:name:workdir ...

使用自定义函数及Python第三方库

iris.map_reduce(mapper=handle).count()300 如果您想调用MaxCompute上已经存在的UDTF,函数指定为函数名即可。iris['name','sepallength'].apply('your_func',axis=1,names=['name2','sepallength2'],types=['string','float'])使用 apply...

MaxCompute UDF(Java)常见问题

产生原因:MaxCompute运行作业主要分为三个阶段:MapReduce和Join。如果处理的数据量比较大,会导致各个阶段的每个Instance处理的时间比较长。解决措施:如果是 fuxi 或 runtime 相关代码报错,您可以通过设置如下资源参数提升处理速度。...

MapReduce常见问题

一般情况下,资源读取在setup中执行一次即可,不要在MapReduce阶段中多次读取。执行MaxCompute MapReduce时,Reduce还没开始执行第一句,便报错为内存溢出,如何解决?产生原因 某些数据特别大,下载到内存便溢出了。解决措施 把Combiner...

MapReduce支持SQL运行时执行模式

Job run mode:fuxi job Job run engine:execution engine Logview JSONSummary MapReduce的 JSONSummary 信息仅包含了简单的MapReduce输入输出信息。SQL的 JSONSummary 信息可以查看SQL执行各阶段的详细信息,包含所有执行参数、逻辑计划...

PyODPS使用第三方包

下面以map方法为例,apply或map_reduce方法的过程类似。使用以下命令打包scipy。pyodps-pack-o scipy-bundle.tar.gz scipy 假定表名为 test_float_col,内容只包含一列FLOAT值:col1 0 3.75 1 2.51 计算 psi(col1)的值,代码如下:import ...

Join示例

MaxCompute MapReduce框架自身并不支持Join逻辑,但您可以在自己的MapReduce函数中实现数据的Join。测试准备 准备好测试程序的JAR包,假设名字为 mapreduce-examples.jar,本地存放路径为 data\resources。准备好Join的测试表和资源。...

通过HDP 2.6 Hadoop读取和写入OSS数据

map 1%reduce 0%18/10/28 21:32:57 INFO mapreduce.Job:map 2%reduce 0%18/10/28 21:32:58 INFO mapreduce.Job:map 4%reduce 0%.18/10/28 21:34:40 INFO mapreduce.Job:map 99%reduce 0%18/10/28 21:34:42 INFO mapreduce.Job:map 100%...

附录:数据探查典型场景说明

亚信DP5.3 内存溢出 Map端和Reduce端的内存溢出。set mapreduce.map.memory.mb=10150;set mapreduce.map.java.opts=-Xmx6144m;set mapreduce.reduce.memory.mb=10150;set mapreduce.reduce.java.opts=-Xmx8120m;E-MapReduce3.x、E-...

附录:数据探查典型场景说明

亚信DP5.3 内存溢出 Map端和Reduce端的内存溢出。set mapreduce.map.memory.mb=10150;set mapreduce.map.java.opts=-Xmx6144m;set mapreduce.reduce.memory.mb=10150;set mapreduce.reduce.java.opts=-Xmx8120m;E-MapReduce3.x、E-...

搭建Hadoop环境

通过对计算任务的拆分(Map计算和Reduce计算),再根据任务调度器(JobTracker)对任务进行分布式计算。更多信息,请参见 Hadoop官网。Hadoop与Java开发工具包(JDK)紧密集成,不同版本的Hadoop对JDK的要求也有所不同。Hadoop 3.3:Java 8...

原生SDK概述

Map端运行,作用类似于单个Map对本地的相同Key值做Reduce。void setSplitSize(long size)设置分片大小,单位MB,默认值256。void setNumReduceTasks(int n)设置Reducer任务数,默认为Mapper任务数的1/4。void setMemoryForMapTask(int ...

SELECT TRANSFORM

可以用 mapreduce 关键字替换,语义是完全一样的。为使语法更清晰,推荐您使用 select transform。arg1,arg2.:必填。指定输入数据。其格式和 select 语句类似。默认格式下,参数的各个表达式结果在隐式转换成STRING类型后,用 \t 拼接...

SELECT TRANSFORM

可以用 mapreduce 关键字替换,语义是完全一样的。为使语法更清晰,推荐您使用 select transform。arg1,arg2.:必填。指定输入数据。其格式和 select 语句类似。默认格式下,参数的各个表达式结果在隐式转换成STRING类型后,用 \t 拼接...
共有117条 < 1 2 3 4 ... 117 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网边缘计算 全局事务服务 (文档停止维护) Serverless 应用引擎 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用