hadoop优化-hadoop优化文档介绍内容-阿里云

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式（SDK...

MaxCompute湖仓一体概述

当MaxCompute与Hadoop平台所在的VPC区域网络开通后，MaxCompute可以直接访问Hive元数据服务，并将元数据信息映射到MaxCompute的外部项目（External Project）中。使用限制仅华东1（杭州）、华东2（上海）、华北2（北京）、华北3（张家口）...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后，MaxCompute可以直接访问Hive元数据服务，并将元数据信息映射到MaxCompute的外部项目（External Project）中。前提条件在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后，MaxCompute可以直接访问Hive元数据服务，并将元数据信息映射到MaxCompute的外部项目（External Project）中。前提条件在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

阿里云提供OSS/OSS-HDFS作为HDFS的替代或补充，扩展云上Hadoop平台的存储能力。JindoTable工具可以将Hive数据根据分区键规则筛选，在HDFS和OSS/OSS-HDFS之间转移分区。本文介绍如何使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS。...

JindoData版本说明

优化了Hadoop SDK，解决了在部分场景下可能出现的Hadoop配置并发修改异常ConcurrentModificationException的问题。优化了临时目录异常或者出现坏盘时，JindoMagicCommitter客户端写OSS的重试逻辑，以最大程度保证作业写入成功并避免...

Spark使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端，为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端，Spark使用JindoSDK查询OSS-HDFS服务中的数据时，可以获得更好的性能。前提条件已创建ECS实例。具体...

Impala使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端，为OSS提供高度优化的Hadoop FileSystem实现。相对于Hadoop社区OSS客户端，Impala使用JindoSDK查询OSS-HDFS服务中的数据时，可以获得更好的性能。前提条件已创建ECS实例。具体...

通过HDP 2.6 Hadoop读取和写入OSS数据

HDP（Hortonworks Data Platform）是由Hortonworks发行的大数据平台，包含了Hadoop、Hive、HBase等开源组件。HDP 3.0.1版本中的Hadoop 3.1.1版本已支持OSS，但是低版本的HDP不支持OSS。本文以HDP 2.6.1.0版本为例，介绍如何配置HDP 2.6版本...

搭建与管理（基于Hadoop）

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析，提供了一个既能处理结构化、半结构化数据，又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体，以及管理湖...

基于Hadoop集群支持Delta Lake或Hudi存储机制

创建外部数据湖连接参数说明异构数据平台类型选择阿里云E-MapReduce/Hadoop集群。网络连接选择已创建的网络连接。操作详情请参见创建外部数据湖连接。选择外部数据源选择已创建的外部数据源。操作详情请参见创建外部数据湖连接。...

MaxCompute+Hadoop搭建实践

参数说明异构数据平台类型选择阿里云E-MapReduce/Hadoop集群网络连接选择已创建的网络连接。例如：test_net。选择外部数据源此处直接创建外部数据源，例如：foreign_data。参数详情请参见外部数据源参数说明。说明如果集群为高...

创建Hadoop计算源

Hadoop计算源用于绑定Dataphin项目空间与Hadoop项目，为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为Hadoop，则只有项目空间添加了Hadoop计算源，才支持规范建模、即席查询、Hive任务、通用脚本等功能。...

函数操作

本文中的命令您可以在如下工具平台执行：MaxCompute客户端使用SQL分析连接使用DataWorks连接 MaxCompute Studio 注销函数在MaxCompute项目中注销已注册的自定义函数。具备注销函数权限（Delete）的用户。查看函数查看MaxCompute项目中...

数据上云场景

MaxCompute平台提供了丰富的数据上传下载工具，可以广泛应用于各种数据上云的应用场景，本文为您介绍三种经典数据上云场景。Hadoop数据迁移您可使用MMA、Sqoop和DataWorks进行Hadoop数据迁移。使用DataWorks结合DataX进行Hadoop数据迁移的...

注册EMR集群至DataWorks

背景信息开源大数据开发平台 E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

以下配置必须在DataWorks配置项/spark-defaults.conf文件中添加 spark.hadoop.odps.cupid.internet.access.list=aliyundoc.com:443 spark.hadoop.odps.cupid.eni.enable=true spark.hadoop.odps.cupid.eni.info=[region]:[vpcid]如何访问OSS...

迁移开源HDFS的数据到文件存储 HDFS 版

场景B：原集群在其他平台上。使用阿里云高速通道产品连通原集群和迁移集群的网络环境。具体操作，请参见功能特性。在已配置文件存储 HDFS 版的集群上参考以下命令迁移数据。hadoop distcp hdfs:/x.x.x.x:9000/user/hive/warehouse dfs:/...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询，遇到查询延迟的问题时，可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型，特别是即席查询（Ad Hoc），基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务，...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

计算源概述

在机器学习平台中，创建可视化建模的工作空间时，资源请选择基于MaxCompute的计算资源组，详情请参见资源管理概述。Hologres加速计算源：Dataphin支持为已绑定MaxCompute计算源的项目添加Hologres加速计算源，加速业务数据的查询速度。...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH（Cloudera's Distribution Including Apache Hadoop），支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

通过OSS SDK接入开源生态

使用Flink访问OSS 将HBase快照保存在OSS 将Kafka数据导入OSS 此系列文档由面向开源项目的托管平台GitHub提供。使用Logstash将日志导入OSS 使用Fluentd访问OSS 使用Thanos访问OSS 此文档由开源Thanos社区提供。将Elasticsearch的快照备份至...

分析平台设置

Dataphin分析平台设置为使用分析平台的前提条件。包含分析平台专用的计算源设置、临时表生命周期设置、数据结果下载及审批设置。本文将为您介绍如何进行分析平台设置。前提条件已完成计算源创建，具体操作，请参见计算源概述。说明分析...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据湖集群（DataLake），以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式，并针对这些因素，提供适应新集群的迁移策略...

UDF示例：兼容Hive

将 Hive UDF代码示例通过Hive平台编译为JAR包，执行如下命令将Hive UDF JAR包添加为MaxCompute资源。添加资源。add jar test.jar;更多添加资源信息，请参见添加资源。执行如下命令注册UDF函数。注册函数。create function hive_collect ...

SHOW

优化器信息收集测试Column Stats收集结果。SET操作显示set命令设置的属性。命令格式如下：show flags;说明更多关于SET操作的介绍，请参见 SET操作。Tunnel操作显示历史记录。命令格式 tunnel show history[-n];n<number>：tunnel执行的...

SHOW

优化器信息收集测试Column Stats收集结果。SET操作显示set命令设置的属性。命令格式如下：show flags;说明更多关于SET操作的介绍，请参见 SET操作。Tunnel操作显示历史记录。命令格式 tunnel show history[-n];n<number>：tunnel执行的...

数据湖生态接入

生态类型引擎/平台参考文档开源生态 Elasticsearch 将Elasticsearch的快照备份至OSS Flink 使用Flink访问OSS 开源Flink写入OSS-HDFS服务 Fluentd 使用Fluentd访问OSS Flume Flume使用JindoSDK写入OSS-HDFS服务 Hadoop 自建Hadoop使用...

网络开通流程

您需要开通网络连接以便访问外网或VPC中的目标服务（例如指定IP或域名、RDS、HBase集群、Hadoop集群等）。本文为您介绍MaxCompute与目标服务间的网络结构及支持的网络开通方案。免责声明 MaxCompute提供的公网与VPC访问能力目前属于免费...

数据迁移

本文为您介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

创建EMR函数

Hadoop：Hadoop集群开发前准备工作。您需要先上传资源，才可以注册函数。新建EMR资源详情可参考文档：创建和使用EMR资源操作步骤进入数据开发页面。登录 DataWorks控制台。在左侧导航栏，单击工作空间列表。选择工作空间所在地域后，...

数据读取

本文介绍如何通过开源大数据平台 EMR（E-MapReduce）控制台，快速创建一个 EMR 集群并使用Spark3读取表格存储的数据。前提条件已使用阿里云账号对 EMR 服务授权。具体操作，请参见角色授权。已创建表格存储数据表。具体操作，请参见...

分析平台概述

说明分析平台支持MaxCompute、Hadoop、星环TDH 6.x、AnalyticDB for PostgreSQL、ArgoDB、StarRocks类型的离线计算源。完成分析平台计算源创建后，您还需要将创建的计算源绑定到分析平台。具体操作，请参见分析平台设置。Notebook：基于...

应用场景

弹性扩容：网站活动导致行为数据激增，云平台可以快速按需扩容。大数据分析：可对接Storm、Spark等实时数据处理引擎，亦可对接Hadoop等离线数据仓库系统。日志聚合许多公司，例如淘宝、天猫等，每天都会产生大量的日志（一般为流式数据，...

创建和使用EMR资源

Hadoop：Hadoop集群开发前准备工作。创建EMR资源进入数据开发页面。登录 DataWorks控制台。在左侧导航栏，单击工作空间列表。选择工作空间所在地域后，单击相应工作空间后的快速进入>数据开发。鼠标悬停至图标，单击新建资源>EMR>...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache ...-MapReduce Hadoop构建的企业级大数据计算平台...

模拟IDC Spark读写MaxCompute实践

本文以开源大数据开发平台E-MapReduce（云上Hadoop）方式模拟本地Hadoop集群，为您介绍如何读写MaxCompute数据。背景信息实践架构图如下所示。准备开发环境准备E-MapReduce（EMR）环境。购买EMR集群。详情请参见 E-MapReduce快速入门。...

hadoop优化

新品推荐