性能优化最佳实践

避免使用小文件 处理小文件并非Hadoop的设计目标,Hadoop分析引擎处理大量小文件的速度远远小于处理同等数据量的大文件的速度。每一个小文件都会占用一个task,而task启动将耗费大量时间,造成作业的大部分时间都耗费在启动task和释放task...

基于Hadoop集群支持Delta Lake或Hudi存储机制

步骤三:基于MaxCompute实时分析Hadoop集群数据 基于已创建的MaxCompute项目以及Hadoop集群表数据,创建External Project,用于Hadoop集群,并映射至已创建的MaxCompute项目。后续可通过映射的MaxCompute项目对External Project进行数据...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

漏洞利用分析 Hadoop Yarn RPC未授权访问漏洞存在于Hadoop Yarn中负责资源管理和任务调度的ResourceManager,成因是该组件为用户提供的RPC服务默认情况下无需认证即可访问,因此RPC服务暴露在公网上是非常危险的。RPC服务利用这一问题会...

Teamtnt变种攻击Hadoop集群

系统信息 无 无 无 漏洞利用分析 Hadoop Yarn作为其核心组件之一,负责将资源分配至各个集群中运行各种应用程序,并调度不同集群节点上的任务执行,攻击者通过REST API携带恶意命令即可进行远程命令执行。攻击者不仅沿用了之前的恶意域名...

概览

借助该SDK,Apache Hadoop的计算分析应用(如MapReduce、Hive、Spark等)可以使用 文件存储 HDFS 版 作为defaultFS,从而获得 文件存储 HDFS 版 带来的超越原始HDFS的功能和性能优势。更多信息,请参见 安装文件系统SDK、SDK示例。

文件存储HDFS版

借助该SDK,Apache Hadoop的计算分析应用(如MapReduce、Hive、Spark、Flink等)可以无需修改代码和编译,直接使用文件存储HDFS版作为defaultFS,从而获得超越原始HDFS的功能和性能优势。如果您更习惯使用图形化的Web应用程序,可以使用...

非EMR集群接入OSS-HDFS服务快速入门

JindoSDK为Apache Hadoop的计算分析应用(例如MapReduce、Hive、Spark、Flink等)提供了访问HDFS服务的能力。本文介绍如何通过在ECS实例中部署JindoSDK,然后完成OSS-HDFS服务快速入门相关操作。前提条件 已创建ECS实例。具体步骤,请参见 ...

JindoFS实战演示

Impala如何高效查询OSS数据 Impala如何高效查询OSS数据 2021-06-08 Apache Impala是一个开源的大数据查询分析引擎,能够快速查询分析存储在Hadoop集群的PB级数据。如果您已将HDFS数据迁移至OSS中,可通过在Impala中使用JindoFS SDK,高效...

Hudi

如果没有显示指定,hudi会根据提交元数据动态估计record大小.Hadoop参数 名称 说明 默认值 备注 hadoop.${you option key} 通过hadoop.前缀指定hadoop配置项。无 支持同时指定多个hadoop配置项。说明 从Hudi 0.12.0开始支持,针对跨集群...

UNLOAD

本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 功能介绍 MaxCompute支持使用 unload 命令将MaxCompute的数据导出至 OSS、Hologres 外部存储...

UNLOAD

本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用云命令行(odpscmd)连接 使用DataWorks连接 MaxCompute Studio 功能介绍 MaxCompute支持使用 unload 命令将MaxCompute的数据导出至 OSS、Hologres 外部存储...

SQL常见问题

本文为您介绍实时计算Flink版的SQL常见问题,包括作业常见问题、开发报错、运维报错。为什么使用POJO类作为UDTF返回类型时字段会出现“错位”?为什么数据在LocalGroupAggregate节点中长时间卡住,无输出?运行拓扑图中显示的Low Watermark...

应用场景

在线或离线分析系统:支持实时在线分析系统和类似于Hadoop的离线分析系统。数据处理 在很多领域,如股市走向分析、气象数据测控、网站用户行为分析,由于数据产生快、实时性强且量大,您很难统一采集这些数据并将其入库存储后再做处理,这...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

Hive

Hive是Hadoop生态系统中的一个被广泛使用的数据仓库工具,主要用来进行Hadoop中的大规模数据的提取、转化、加载、查询和分析等操作。Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将...

概览

支持 Hadoop生态外表联邦分析 您可以在 AnalyticDB PostgreSQL版 中通过gphdfs协议读写HDFS(Hadoop)集群的数据。支持 仓级迁移 自建Greenplum迁移到AnalyticDB PostgreSQL版 AnalyticDB PostgreSQL 6.0版 基于Greenplum 6.0构建,并深度...

Hadoop使用JindoSDK访问OSS-HDFS服务

什么是OSS-HDFS服务 通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖...

Impala概述

Impala为存储在Apache Hadoop中的数据,提供了高性能和低延迟的SQL查询。使用Impala,您可以通过SELECT、JOIN和聚合函数实时查询存储在HDFS或HBase中的数据。背景信息 Impala使用与Apache Hive相同的元数据、SQL语法(Hive SQL)和ODBC驱动...

弹性伸缩概述

使用方式 集群类型 相关文档 DataLake、Dataflow、OLAP和Custom集群 添加弹性伸缩规则 查看弹性伸缩活动 可视化弹性成本分析 查看集群资源概览 Hadoop集群 配置弹性伸缩(仅Hadoop集群类型)开启或关闭弹性伸缩(仅Hadoop集群类型)查看...

分析平台设置

Dataphin分析平台设置为使用分析平台的前提条件。包含分析平台专用的计算源设置、临时表生命周期设置、数据结果下载及审批设置。本文将为您介绍如何进行分析平台设置。前提条件 已完成计算源创建,具体操作,请参见 计算源概述。说明 分析...

什么是OSS-HDFS服务

功能优势 通过OSS-HDFS服务,无需对现有的Hadoop、Spark大数据分析应用做任何修改。通过简单的配置即可像在原生HDFS中那样管理和访问数据,同时获得OSS无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。作为云原生数据湖基础,OSS-...

使用说明

本文介绍如何在E-MapReduce上配置及访问Hue,通过使用Hue可以在浏览器端与Hadoop集群进行交互来分析处理数据。前提条件 已设置安全组访问。重要 设置安全组规则时要针对有限的IP范围。禁止在配置的时候对0.0.0.0/0开放规则。已打开8888端口...

分析平台概述

Dataphin提供了简单、快速、高效的数据分析平台,您可通过数据分析对数据仓库中的数据进行洞察、在线查询及可视化分析,提取出有效信息而形成结论,辅助决策。前提条件 需开通智能研发版。分析平台简介 在分析平台上,您可选择您有权限的...

典型场景

大数据分析平台 对于MaxCompute、Hadoop和Spark中保存的海量数据,可通过采用数据集成服务(DataX)或通过对象存储服务(OSS),快速批量导入到 云原生数据仓库AnalyticDB PostgreSQL版,帮助您实现高性能分析处理和在线数据探索。...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型,特别是即席查询(Ad Hoc),基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务,...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现...

自建数据源Kylin

背景信息 Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据查询。关于更多信息,请参见 Kylin。操作步骤 登录 Quick BI控制台。请按照下述步骤添加数据...

创建Hadoop计算源

Hadoop计算源用于绑定Dataphin项目空间与Hadoop项目,为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为Hadoop,则只有项目空间添加了Hadoop计算源,才支持规范建模、即席查询、Hive任务、通用脚本等功能。...

互联网行业实时BI分析

本文以某互联网公司为例,介绍如何将DB...客户价值 1小时短平快即可实现实时数据分析平台建设,无需掌握Hadoop\Spark\Flink\Presto\Impala等复杂的大数据技术。操作简单快捷,全程拖拽式配置,无需编码。业务实时指标数据延时在1分钟以内。

Hive多维分析语句

本文为您介绍Dataphin计算引擎为Hadoop时,系统支持的多维分析语句。语句 描述 是否支持 Grouping_ID 标示结果属于哪一个分组集合。是

设备数据存储和计算实践

经营统计分析场景 数据存储在MaxCompute、Hadoop等⼤数据仓库中,使⽤Spark或Python进⾏计算。基于⼈⼯智能的分析场景 与⼤数据仓库组合使⽤,例如在DataWorks上使⽤PAI,Hadoop上使⽤Spark ML等。当您在⾯对以上⼏种或全部存储计算场景时...

新建ArgoDB计算源

背景信息 ArgoDB是星环自主研发的分布式分析型数据库,可替代Hadoop+MPP的混合架构。能够使用标准的SQL语法进行业务的建设,并且能够给用户提供多模型数据分析、实时数据处理、存储与计算模块解耦、异构服务器混合部署等先进技术能力。更多...

Hadoop生态外表联邦分析

前提条件:配置SERVER端 由于不同用户的配置需求不尽相同,如果您需要访问Hadoop生态的外部数据源进行联邦分析,请 提交工单 由 AnalyticDB PostgreSQL版 后台技术人员进行配置。以下为提交工单时需要提交的对应文件。连接对象 提交工单...

常见问题排查

例如:执行 hadoop 命令或者任务出现如下错误时,表明 org/apache/hadoop/fs/PathFilter 相关的类不在Hadoop的运行环境中,该类所属的Jar包为 hadoop-common-x.x.x.jar,需要您下载该Jar包的正确版本,并将其置于所有Hadoop环境下的...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

测试结果

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要展示了开源自建Spark和DLA Spark在3种测试场景下的测试结果及性能对比分析。1 TB...

测试方法

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。您可以按照本文介绍自行测试对比,快速了解云原生数据湖分析(DLA)Spark引擎的性价比数据。...

注册EMR集群至DataWorks

EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。阿里云EMR提供了on ...

最佳实践概览

ES-Hadoop使用 通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据 通过ES-Hadoop将HDFS中的数据写入Elasticsearch 通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据 日志采集与分析 日志同步分析概述 通过自建Filebeat收集MySQL日志 ...

产品概述

EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。阿里云EMR提供了on ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
检索分析服务 Elasticsearch版 实时数仓 Hologres 视频点播 开源大数据平台 E-MapReduce 云安全中心 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用