其他漏洞汇总说明

Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Apache Hadoop YARN ZKConfigurationStore反序列化代码执行漏洞(CVE-2021-25642)Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Hadoop是一款分布式基础架构,...

搭建Hadoop环境

Hadoop与Java开发工具包(JDK)紧密集成,不同版本的Hadoop对JDK的要求也有所不同。Hadoop 3.3:Java 8和Java 11 Hadoop 3.0.x~3.2.x:Java 8 Hadoop 2.7.x~2.10.x:Java 7和Java 8 本文使用的版本为Hadoop 3.2.4和Java 8,如您使用其他...

扩展插件列表

gp_paralell_retrieve_cursor:并行游标插件,与greenplum_fdw插件配合使用可以实现高速跨实例、跨库查询。具体信息,请参见 跨库查询 和 跨实例查询。tablefunc:表函数插件。具体信息,请参见 tablefunc。Zhparser:中文分词插件。具体...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

Multi-Master基础架构

图 1.Single-Master架构 AnalyticDB PostgreSQL版 是由Greenplum演化而来,早期 AnalyticDB PostgreSQL版 与Greenplum一样,使用了Single-Master架构。通常情况下,数据库实例中只有Main Master在工作,Standby Master节点作为高可用备份,...

搭建管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化、半结构化数据,又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖...

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

已部署Hadoop与Hive环境。确保 hadoop classpath 能够返回合理结果。确保客户端环境变量$HIVE_HOME 与$HIVE_CONF_DIR 正确配置。配置MoveTo工具在HDFS下的锁目录 在Hadoop配置文件 core-site.xml 或 hdfs-site.xml(任选一个即可,在$...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop ...与其他EMR组件相比,ES-Hadoop与Spark的集成,不仅包括RDD,还包括Spark Streaming、scale、DataSet与Spark SQL等,您可以根据需求进行配置。详细信息,请参见 Apache Spark support。

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

使用Fuse-DFS挂载文件存储 HDFS 版

已下载与Hadoop集群版本相同的Hadoop源码包。具体下载地址请参见 下载Hadoop源码包。背景信息 Fuse-DFS是Hadoop项目自带的一个功能模块,提供了使用FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译...

基于Hadoop集群支持Delta Lake或Hudi存储机制

返回结果:相关文档 通过MaxCompute与Hadoop构建湖仓一体的最佳实践,请参见 MaxCompute+Hadoop搭建实践。若您想通过MaxCompute与DLF和OSS构建湖仓一体,可参见 基于DLF、RDS或Flink、OSS支持Delta Lake或Hudi存储机制。

使用Druid

对于独立的E-MapReduce Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid....

在文件存储 HDFS 版上使用Apache HBase

已部署Apache HBase分布式集群,且版本必须与Hadoop版本兼容。具体操作,请参见 Apache HBase Reference Guide。本文使用Hadoop-2.10.1和HBase-2.3.7测试验证。更多信息,请参见 HBase官网Hadoop版本兼容性说明。说明 如果您使用的是CDH...

数据湖集群

与Hadoop集群的主要差异 模块 功能项 数据湖集群 Hadoop集群 集群 集群创建时间 平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点 平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。hosts...

迁移HDFS数据到OSS-HDFS

OSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以利用Hadoop生态系统的各种工具和框架进行数据处理和分析。前提条件 已创建阿里云EMR-5.6.0及后续版本或EMR-3.40.0及后续版本的集群。具体步骤,请参见 创建集群。如果...

OSS/OSS-HDFS快速入门

Jindo CLI命令 jindo fs-ls oss:/examplebucket.cn-shanghai.oss-dls.aliyuncs.com/ Jindo CLI命令访问OSS/OSS-HDFS的方式与Hadoop Shell方式类似。此外,还支持了更多的功能,比如归档、缓存、错误分析等,具体信息请参见 通过Jindo CLI...

E-MapReduce弹性低成本离线大数据分析

Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,能够与Hadoop很好地结合。Storm适用于处理高速、大型数据流的分布式实时计算,为Hadoop添加可靠的实时数据处理能力。海量离线数据分析...

MaxCompute湖仓一体概述

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)...

异构数据源访问

为确保 AnalyticDB PostgreSQL版 与Hadoop间的网络端口畅通,需将以下异构数据源访问功能会用到的Hadoop服务默认的端口全部加入安全组。具体操作,请参见 添加安全组规则。服务 端口号 Namenode IPC Hadoop2.x版本:8020 Hadoop3.x版本:...

兼容版本SDK概述

本文为您介绍MaxCompute兼容版本的MapReduce与Hadoop MapReduce兼容性。MaxCompute兼容版本的MapReduce与Hadoop MapReduce兼容性的详细列表,如下表所示。类型 接口 是否兼容 Mapper void map(KEYIN key,VALUEIN value,org.apache.hadoop....

常见问题

例如,在优化TimelineServer组件以关闭jersey依赖库的日志生成时,操作步骤如下:通过以下命令,监控YARN日志路径中 hadoop-timelineserver-相关的.out 日志文件。DataLake集群的日志路径为/var/log/emr/yarn/,Hadoop集群日志路径为/mnt...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

ZKFC Mismatched address异常

8021 问题原因 该问题通常说明高可用集群中的ZKFC在ZooKeeper中存储的NameNode的信息与Hadoop配置文件中的不匹配,导致HDFS无法选出Active NameNode。存储在ZKFC中的端口是8020,而实际的NameNode ServiceRPC的端口是8021。早期部分EMR版本...

生成keytab配置文件

MaxCompute与Hadoop集群构建湖仓一体时,如果Hadoop集群开启了Kerberos安全机制,则需要上传keytab配置文件。本文为您介绍如何生成keytab配置文件。操作步骤 以下以阿里云E-MapReduce(EMR)为例,说明生成keytab配置文件的过程。使用SSH...

什么是云原生数据湖分析

DLA提供与Hadoop体系兼容的过渡方案。为什么同时支持Serverless Presto与Serverless Spark?DLA Serverless Presto是在开源Apache Presto基础上研发,完全由内存完成计算工作,具备高性能、交互式的分析体验,秒级可返回;DLA Serverless ...

扩展MapReduce(MR2)

与Hadoop Chain Mapper/Reducer对比 Hadoop Chain Mapper/Reducer也支持类似的串行化Map或Reduce操作,但和MaxCompute的扩展MapReduce(MR2)模型有本质的区别。Chain Mapper/Reducer基于传统的MapReduce模型,仅可以在原有的Mapper或...

HDFS数据源

目前插件中Hive版本为1.1.1,Hadoop版本为2.7.1(Apache适配JDK1.6],在Hadoop 2.5.0、Hadoop 2.6.0和Hive 1.2.0测试环境中写入正常。重要 HDFS Reader暂不支持单个File多线程并发读取,此处涉及到单个File内部切分算法。离线写 使用HDFS ...

选型配置说明

Flink、Kafka、YARN OLAP 数据分析场景,其中核心组件ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,与Hadoop和Spark相比,ClickHouse更轻量级。ClickHouse支持线性扩展,简单方便,具有高可靠性和高容错。...

Trino扩缩容

如果您的集群是Trino与Hadoop等组件混合部署的,在扩容之前需要谨慎考虑。扩容前准备 Trino在扩容时能够同步组件本身以及绝大部分配置项。但是,新增的UDF包、手动替换的JAR包、手动升级的组件(例如JindoSDK)、自行添加的Event Listener...

搭建管理(基于DLF和OSS)

创建外部数据湖连接 参数 说明 异构数据平台类型 阿里云E-MapReduce/Hadoop集群:通过MaxCompute与Hadoop构建湖仓一体。阿里云DLF+OSS数据湖连接:通过MaxCompute和DLF和OSS构建湖仓一体。阿里云DLF+OSS数据湖连接 External Project描述 可...

使用说明

本文介绍如何在E-MapReduce上配置及访问Hue,通过使用Hue可以在浏览器端与Hadoop集群进行交互来分析处理数据。前提条件 已设置安全组访问。重要 设置安全组规则时要针对有限的IP范围。禁止在配置的时候对0.0.0.0/0开放规则。已打开8888端口...

2021年

本文为您提供MaxCompute产品在2021年的重要功能发布信息。MaxCompute的重要功能发布详情请参见 产品重大更新。2021-12 功能名称 功能描述 发布时间 ...与Hadoop HDFS构建湖仓一体能力:通过MaxCompute和Hadoop HDFS(包括本地机房搭建、基于云...

MapReduce常见问题

MaxCompute MapReduce与Hadoop MapReduce API有一定差别,但整体风格一致。您需要修改Hadoop的源码,并在MaxCompute MapReduce SDK下编译通过后,才能在MaxCompute上运行。MapReduce如何实现排序?排序代码如下。设置排序的字段(这里根据i...

外部表

同时,OSS能够与Hadoop开源社区及EMR、批量计算、MaxCompute、机器学习和函数计算等产品进行深度结合。MaxCompute 大数据计算服务MaxCompute为您提供快速且完全托管的数据仓库解决方案,并可以通过与OSS的结合,高效经济地分析处理海量数据...

OSS数据湖加速

什么是对象存储OSS OSS-HDFS服务(又名JindoFS)是云原生数据湖存储,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX...

2023年

数据组织优化 2023-06-26 新增TimeTravel查询Incremental查询 新说明 对于Transaction Table2.0类型的表,MaxCompute支持查询回溯到源表某个历史时间或者版本进行历史Snapshot查询(TimeTravel查询),也支持指定源表某个历史时间区间...

数据湖加速查询

什么是对象存储OSS OSS-HDFS服务(又名JindoFS)是云原生数据湖存储,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX...

自建Greenplum迁移到AnalyticDB PostgreSQL版

AnalyticDB PostgreSQL版实例与Greenplum 4X版本的语法存在部分语法不兼容的情况,需要您手动修改。如果自建Greenplum集群中有分区表或INHERIT表,建议您从子表粒度迁移。选择迁移方法 迁移方法 场景 使用gpcopy迁移数据 自建Greenplum集群...

测试结果

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要展示了开源自建Spark和DLA Spark在3种测试场景下的测试结果及性能对比分析。1 TB...

Hadoop DistCp介绍

本文为您介绍Hadoop DistCpJindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 Hadoop DistCp的功能和使用方法等详细信息,请参见 Hadoop社区的DistCp使用文档。Hadoop DistCp和Jindo DistCp的区别 DistCp类型 功能 使用场景 ...
共有30条 < 1 2 3 4 ... 30 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库 AnalyticDB PostgreSQL版 开源大数据平台 E-MapReduce 弹性公网IP 短信服务 人工智能平台 PAI 物联网平台
新人特惠 爆款特惠 最新活动 免费试用