常用文件路径

本文为您介绍E-MapReduce中常用文件的路径。您可以登录Master节点查看常用文件的安装路径。数据湖集群 大数据组件安装目录 组件安装在/opt/apps/xxx 目录下,例如:HDFS:/opt/apps/HDFS/hdfs-current Hive:/opt/apps/HIVE/hive-current ...

选型配置说明

选择合适的集群是E-MapReduce产品使用的第一步。E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求,还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明 具体各集群类型支持...

技术支持的范围和方式

阿里云E-MapReduce(简称EMR)是云原生开源大数据平台,能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上,集群资源归属于用户,EMR提供基于该资源的半托管云服务能力,用户对集群拥有完全的管理操作权限,...

什么是EMR on ACK

阿里云E-MapReduce(简称EMR)on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注...

ESS(仅对存量用户开放)

ESS(EMR Remote Shuffle Service)是E-MapReduce(简称EMR)在优化计算引擎的Shuffle操作上,推出的扩展组件。背景信息 目前Shuffle方案缺点如下:Shuffle Write在大数据量场景下会溢出,导致写放大。Shuffle Read过程中有大量的网络小包...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境,作为阿里云E-MapReduce的一部分,它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作...

应用场景

阿里云开源大数据平台E-MapReduce(简称EMR)具有广泛的应用场景。本文为您介绍EMR的主要应用场景。数据湖场景 DataLake集群类型提供了数据湖分析场景所需的服务和相关湖格式,包括Hadoop、OSS-HDFS、Hive、Spark、Presto等。通过选择OSS-...

Slowly Changing Dimension

E-MapReduce根据实际的数仓场景定义了基于固定粒度的缓慢变化维(G-SCD)。本文为您介绍G-SCD的具体解决方案及如何通过G-SCD处理维度的数据。背景信息 SCD简介 Slowly Changing Dimension(SCD)即缓慢变化维,是随着时间变化的维度。在...

概述

SmartData是E-MapReduce(简称EMR)产品的核心自研组件,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展,涵盖数据访问、数据治理和数据安全。SmartData组件在EMR产品中的位置如下所示。SmartData组件...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

Hadoop DistCp介绍

集群之间的HDFS数据迁移需要先确保网络的打通,然后再使用Hadoop DistCp工具进行迁移,具体操作请参见 E-MapReduce数据迁移方案。出现ACLs not supported on at least one file system异常,如何处理?具体报错:org.apache.hadoop.tools....

计费概述

本文介绍阿里云E-MapReduce的计费项、计费方式、转换计费方式、续费说明、欠费说明、查看消费明细、退费说明、查看账单和计费常见问题。相关项 描述 相关文档 计费项 为您介绍E-MapReduce的计费项,以及相关计算公式,以便您对支付的费用...

计费项

本文为您介绍E-MapReduce的计费项和计费方式,以便您对支付的费用组成有所了解。计费说明 E-MapReduce的费用由E-MapReduce服务费用、ECS产品费用和Master节点的外网流量费用组成。重要 实际价格请以产品购买页面为准。计费项 计费说明及...

HDFS DiskBalancer介绍

HDFS DiskBalancer调优参数 当需要对DiskBalancer参数进行调整时,您可以在E-MapReduce控制台的HDFS服务页面,选择 配置>hdfs-site.xml,新增或调整以下配置。参数 描述 dfs.disk.balancer.enabled 是否开启HDFS DiskBalancer特性。默认为...

数据湖集群

E-MapReduce(简称EMR)新版控制台提供了数据湖集群,一个更灵活、可靠,以及高效的大数据计算集群。同时,您可以基于该集群轻松构建一个可扩展的数据管道。本文为您介绍数据湖集群支持的特性,以及与旧版Hadoop集群之间的差异。数据湖集群...

开发准备

本文介绍E-MapReduce开发的准备工作。准备工作如下:请确认您已经开通了阿里云服务,并创建了AccessKey ID和AccessKey Secret。请确认您已开通OSS。您已经对Spark、Hadoop、Hive和Pig具备一定的认识。文中不对Spark、Hadoop、Hive和Pig开发...

存储说明

本文介绍E-MapReduce集群中数据存储相关的信息,包括磁盘角色、云盘与本地盘,以及OSS。背景信息 关于存储的类型、性能和相关的限制信息,请参见 什么是块存储。存储价格估算如下:本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/...

阿里云OSS/OSS-HDFS服务透明缓存加速

前提条件 已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群,且选择JINDODATA服务,详情请参见 创建集群。使用限制 仅EMR-3.42.0及后续版本、EMR-5.6.0及后续版本集群支持该功能。操作流程 说明 本文以EMR-3.42.0...

常见问题

本文介绍E-MapReduce Druid使用过程中遇到的一些常见问题以及解决方法。索引失败问题分析思路 当发现索引失败时,一般遵循如下排错思路:对于批量索引 如果curl直接返回错误,或者不返回,检查一下输入文件格式。或者curl加上-v 参数,观察...

JindoFS缓存模式

xxxx 说明 考虑到性能和稳定性,推荐使用同账户、同region下的OSS bucket作为存储后端,此时,E-MapReduce集群能够免密访问OSS,无需配置AccessKey ID和AccessKey Secret。jfs.namespaces.test.oss.access.secret 表示存储后端OSS的...

欠费说明

本文介绍E-MapReduce集群的欠费说明以及如何查看欠费金额。欠费说明 多个集群之间并不会互相影响,例如,您有一个包年包月集群和一个按量付费集群,当按量付费集群欠费时,包年包月集群并不会受到影响,仍然会正常工作。计费方式 欠费策略 ...

设置权限

本文为您介绍E-MapReduce(简称EMR)中Alluxio服务权限相关的内容,包括认证(Authentication),授权(Authorization)和审计(Audit),并介绍如何开启授权和审计。前提条件 已创建集群,并选择了Alluxio服务,详情请参见 创建集群。认证...

产品架构

本文介绍E-MapReduce(简称EMR)的产品架构,以便您直观的了解EMR的产品组成。EMR的产品架构如下图所示。从上图可以看出EMR由四部分组成:社区开源产品 集成Apache社区开源大数据组件,例如Hadoop、Hive和HBase,随着EMR版本更新,开源软件...

集群容灾能力

本文介绍E-MapReduce集群数据容灾和服务容灾能力。数据容灾 在Hadoop分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,...

EMR StarRocks FE日志文件修复公告

本文为您介绍E-MapReduce(简称EMR)StarRocks FE日志文件无法自动清理的影响以及修复流程。影响 问题说明:StarRocks FE历史版本日志配置错误,导致不支持自动清理软链接日志目录,可能会出现FE日志目录写满的问题。影响版本:EMR-5.10.x...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

ECS实例说明

本文介绍E-MapReduce(简称EMR)支持的ECS实例类型,以及各实例类型适用的场景。EMR支持的ECS实例类型 通用型 vCPU:Memory=1:4。例如,8核32 GiB,使用云盘作为存储。计算型 vCPU:Memory=1:2。例如,8核16 GiB,使用云盘作为存储,提供了更...

EMR Spark功能增强

本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,基于开源组件,优化和增强阿里云部署环境。功能增强 Spark针对开源功能增强的功能如下表。EMR版本 组件版本 ...

EMR Kafka配置说明

本文为您介绍E-MapReduce(简称EMR)中Kafka集群操作系统环境变量和配置项。操作系统环境变量 EMR Kafka集群的ECS实例操作系统用户为kafka,用户组为group,您可以登录ECS实例执行各类操作。EMR Kafka预置了以下Shell终端环境变量。变量名 ...

配置连接器

本文为您介绍E-MapReduce(简称EMR)的Presto提供的内置连接器,以及如何修改和添加连接器等操作。EMR Presto内置连接器 EMR Presto默认提供以下几种开箱即用的内置连接器。连接器 功能 hive 使用Hive连接器可以查询存储在Hive数据仓库中的...

配置连接器

本文为您介绍E-MapReduce(简称EMR)的Trino提供的内置连接器,以及如何修改和添加连接器等操作。EMR Trino内置连接器 EMR Trino默认提供以下几种开箱即用的内置连接器。连接器 功能 对应文档 Hive 使用Hive连接器可以查询存储在Hive数据...

在EMR Hive或Spark中访问OSS-HDFS

本文为您介绍E-MapReduce(简称EMR)Hive或Spark如何操作OSS-HDFS。背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI...

基础使用

本文为您介绍E-MapReduce中DeltaLake的配置信息及其常用命令的示例。DeltaLake配置信息 EMR中DeltaLake的默认配置信息如下:Spark 2.X环境 spark.sql.extensions io.delta.sql.DeltaSparkSessionExtension Spark 3.X环境 spark.sql....

Hive元数据说明

本文为您介绍E-MapReduce(简称EMR)支持的元数据类型和各元数据类型的优势。元数据类型介绍 EMR Hive元数据支持DLF统一元数据、自建RDS和内置MySQL三种类型。DLF统一元数据 元数据存储在阿里云数据湖构建(Data Lake Formation,简称DLF)...

OSS参考使用说明

本文介绍E-MapReduce作业配置中使用的OSS URI。OSS URI 使用E-MapReduce时,通常会使用两种OSS URI:native URI:oss:/bucket[.endpoint]/object/path。您在作业中指定输入输出数据源时使用此URI,等同于 hdfs:/。您操作OSS数据时,可以...

使用Druid

EMR-3.11.0及其后续版本,E-MapReduce支持Druid作为单独的一种集群类型。背景信息 E-MapReduce将Druid作为单独的集群类型,主要基于以下几方面的考虑:E-MapReduce Druid可以完全脱离Hadoop来使用。大数据量情况下,E-MapReduce Druid对...

开发参考

本文介绍E-MapReduce的SDK和API相关的内容,供您进行对应的开发操作。EMR on ECS API概览 SDK概述

SmartData使用说明(EMR-3.20.0~3.22.0版本)

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...

PySpark Python环境介绍

本文以Python3为例,介绍不同Spark版本所对应的Python版本,以及安装Python第三方库的方法。Spark版本与Python版本对应关系 EMR版本 Spark版本 Python版本 Python路径 EMR-3.46.0及后续版本、EMR-5.12.0及后续版本 Spark2 python3.6/bin/...

SmartData使用说明(EMR-3.22.0~3.25.1版本)

JindoFS是一种云原生的文件系统,结合OSS和本地存储,成为E-MapReduce产品的新一代存储系统,为上层计算提供了高效可靠的存储。本文主要说明JindoFS的配置使用方式,以及介绍一些典型的应用场景。概述 JindoFS提供了块存储模式(Block)和...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 弹性高性能计算 弹性公网IP 短信服务 人工智能平台 PAI 金融分布式架构
新人特惠 爆款特惠 最新活动 免费试用