E-Mapreduce介绍-E-Mapreduce介绍文档介绍内容-阿里云

常用文件路径

本文为您介绍E-MapReduce中常用文件的路径。您可以登录Master节点查看常用文件的安装路径。数据湖集群大数据组件安装目录组件安装在/opt/apps/xxx 目录下，例如：HDFS：/opt/apps/HDFS/hdfs-current Hive：/opt/apps/HIVE/hive-current ...

选型配置说明

选择合适的集群是E-MapReduce产品使用的第一步。E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

ESS（仅对存量用户开放）

ESS（EMR Remote Shuffle Service）是E-MapReduce（简称EMR）在优化计算引擎的Shuffle操作上，推出的扩展组件。背景信息目前Shuffle方案缺点如下：Shuffle Write在大数据量场景下会溢出，导致写放大。Shuffle Read过程中有大量的网络小包...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

应用场景

阿里云开源大数据平台E-MapReduce（简称EMR）具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式，包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

Slowly Changing Dimension

E-MapReduce根据实际的数仓场景定义了基于固定粒度的缓慢变化维（G-SCD）。本文为您介绍G-SCD的具体解决方案及如何通过G-SCD处理维度的数据。背景信息 SCD简介 Slowly Changing Dimension（SCD）即缓慢变化维，是随着时间变化的维度。在...

概述

SmartData是E-MapReduce（简称EMR）产品的核心自研组件，为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展，涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

Hadoop DistCp介绍

集群之间的HDFS数据迁移需要先确保网络的打通，然后再使用Hadoop DistCp工具进行迁移，具体操作请参见 E-MapReduce数据迁移方案。出现ACLs not supported on at least one file system异常，如何处理？具体报错：org.apache.hadoop.tools....

计费概述

本文介绍阿里云E-MapReduce的计费项、计费方式、转换计费方式、续费说明、欠费说明、查看消费明细、退费说明、查看账单和计费常见问题。相关项描述相关文档计费项为您介绍E-MapReduce的计费项，以及相关计算公式，以便您对支付的费用...

计费项

本文为您介绍E-MapReduce的计费项和计费方式，以便您对支付的费用组成有所了解。计费说明 E-MapReduce的费用由E-MapReduce服务费用、ECS产品费用和Master节点的外网流量费用组成。重要实际价格请以产品购买页面为准。计费项计费说明及...

HDFS DiskBalancer介绍

HDFS DiskBalancer调优参数当需要对DiskBalancer参数进行调整时，您可以在E-MapReduce控制台的HDFS服务页面，选择配置>hdfs-site.xml，新增或调整以下配置。参数描述 dfs.disk.balancer.enabled 是否开启HDFS DiskBalancer特性。默认为...

数据湖集群

E-MapReduce（简称EMR）新版控制台提供了数据湖集群，一个更灵活、可靠，以及高效的大数据计算集群。同时，您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性，以及与旧版Hadoop集群之间的差异。数据湖集群...

开发准备

本文介绍E-MapReduce开发的准备工作。准备工作如下：请确认您已经开通了阿里云服务，并创建了AccessKey ID和AccessKey Secret。请确认您已开通OSS。您已经对Spark、Hadoop、Hive和Pig具备一定的认识。文中不对Spark、Hadoop、Hive和Pig开发...

存储说明

本文介绍E-MapReduce集群中数据存储相关的信息，包括磁盘角色、云盘与本地盘，以及OSS。背景信息关于存储的类型、性能和相关的限制信息，请参见什么是块存储。存储价格估算如下：本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/...

阿里云OSS/OSS-HDFS服务透明缓存加速

前提条件已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群，且选择JINDODATA服务，详情请参见创建集群。使用限制仅EMR-3.42.0及后续版本、EMR-5.6.0及后续版本集群支持该功能。操作流程说明本文以EMR-3.42.0...

常见问题

本文介绍E-MapReduce Druid使用过程中遇到的一些常见问题以及解决方法。索引失败问题分析思路当发现索引失败时，一般遵循如下排错思路：对于批量索引如果curl直接返回错误，或者不返回，检查一下输入文件格式。或者curl加上-v 参数，观察...

JindoFS缓存模式

xxxx 说明考虑到性能和稳定性，推荐使用同账户、同region下的OSS bucket作为存储后端，此时，E-MapReduce集群能够免密访问OSS，无需配置AccessKey ID和AccessKey Secret。jfs.namespaces.test.oss.access.secret 表示存储后端OSS的...

欠费说明

本文介绍E-MapReduce集群的欠费说明以及如何查看欠费金额。欠费说明多个集群之间并不会互相影响，例如，您有一个包年包月集群和一个按量付费集群，当按量付费集群欠费时，包年包月集群并不会受到影响，仍然会正常工作。计费方式欠费策略 ...

设置权限

本文为您介绍E-MapReduce（简称EMR）中Alluxio服务权限相关的内容，包括认证（Authentication），授权（Authorization）和审计（Audit），并介绍如何开启授权和审计。前提条件已创建集群，并选择了Alluxio服务，详情请参见创建集群。认证...

产品架构

本文介绍E-MapReduce（简称EMR）的产品架构，以便您直观的了解EMR的产品组成。EMR的产品架构如下图所示。从上图可以看出EMR由四部分组成：社区开源产品集成Apache社区开源大数据组件，例如Hadoop、Hive和HBase，随着EMR版本更新，开源软件...

集群容灾能力

本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾在Hadoop分布式文件系统（HDFS）中，每一个文件的数据均是分块存储的，每一个数据块保存有多个副本（默认为3），并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下，...

EMR StarRocks FE日志文件修复公告

本文为您介绍E-MapReduce（简称EMR）StarRocks FE日志文件无法自动清理的影响以及修复流程。影响问题说明：StarRocks FE历史版本日志配置错误，导致不支持自动清理软链接日志目录，可能会出现FE日志目录写满的问题。影响版本：EMR-5.10.x...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

ECS实例说明

本文介绍E-MapReduce（简称EMR）支持的ECS实例类型，以及各实例类型适用的场景。EMR支持的ECS实例类型通用型 vCPU:Memory=1:4。例如，8核32 GiB，使用云盘作为存储。计算型 vCPU:Memory=1:2。例如，8核16 GiB，使用云盘作为存储，提供了更...

EMR Spark功能增强

本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，基于开源组件，优化和增强阿里云部署环境。功能增强 Spark针对开源功能增强的功能如下表。EMR版本组件版本 ...

EMR Kafka配置说明

本文为您介绍E-MapReduce（简称EMR）中Kafka集群操作系统环境变量和配置项。操作系统环境变量 EMR Kafka集群的ECS实例操作系统用户为kafka，用户组为group，您可以登录ECS实例执行各类操作。EMR Kafka预置了以下Shell终端环境变量。变量名 ...

配置连接器

本文为您介绍E-MapReduce（简称EMR）的Presto提供的内置连接器，以及如何修改和添加连接器等操作。EMR Presto内置连接器 EMR Presto默认提供以下几种开箱即用的内置连接器。连接器功能 hive 使用Hive连接器可以查询存储在Hive数据仓库中的...

配置连接器

本文为您介绍E-MapReduce（简称EMR）的Trino提供的内置连接器，以及如何修改和添加连接器等操作。EMR Trino内置连接器 EMR Trino默认提供以下几种开箱即用的内置连接器。连接器功能对应文档 Hive 使用Hive连接器可以查询存储在Hive数据...

在EMR Hive或Spark中访问OSS-HDFS

本文为您介绍E-MapReduce（简称EMR）Hive或Spark如何操作OSS-HDFS。背景信息 OSS-HDFS服务是一款云原生数据湖存储产品，基于统一的元数据管理能力，在完全兼容HDFS文件系统接口的同时，提供充分的POSIX能力支持，能更好的满足大数据和AI...

基础使用

本文为您介绍E-MapReduce中DeltaLake的配置信息及其常用命令的示例。DeltaLake配置信息 EMR中DeltaLake的默认配置信息如下：Spark 2.X环境 spark.sql.extensions io.delta.sql.DeltaSparkSessionExtension Spark 3.X环境 spark.sql....

Hive元数据说明

本文为您介绍E-MapReduce（简称EMR）支持的元数据类型和各元数据类型的优势。元数据类型介绍 EMR Hive元数据支持DLF统一元数据、自建RDS和内置MySQL三种类型。DLF统一元数据元数据存储在阿里云数据湖构建（Data Lake Formation，简称DLF）...

OSS参考使用说明

本文介绍在E-MapReduce作业配置中使用的OSS URI。OSS URI 使用E-MapReduce时，通常会使用两种OSS URI：native URI：oss:/bucket[.endpoint]/object/path。您在作业中指定输入输出数据源时使用此URI，等同于 hdfs:/。您操作OSS数据时，可以...

使用Druid

EMR-3.11.0及其后续版本，E-MapReduce支持Druid作为单独的一种集群类型。背景信息 E-MapReduce将Druid作为单独的集群类型，主要基于以下几方面的考虑：E-MapReduce Druid可以完全脱离Hadoop来使用。大数据量情况下，E-MapReduce Druid对...

开发参考

本文介绍了E-MapReduce的SDK和API相关的内容，供您进行对应的开发操作。EMR on ECS API概览 SDK概述

SmartData使用说明（EMR-3.20.0~3.22.0版本）

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

PySpark Python环境介绍

本文以Python3为例，介绍不同Spark版本所对应的Python版本，以及安装Python第三方库的方法。Spark版本与Python版本对应关系 EMR版本 Spark版本 Python版本 Python路径 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本 Spark2 python3.6/bin/...

SmartData使用说明（EMR-3.22.0~3.25.1版本）

JindoFS是一种云原生的文件系统，结合OSS和本地存储，成为E-MapReduce产品的新一代存储系统，为上层计算提供了高效可靠的存储。本文主要说明JindoFS的配置使用方式，以及介绍一些典型的应用场景。概述 JindoFS提供了块存储模式（Block）和...

E-Mapreduce介绍

新品推荐