JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS的访问;提供块存储模式(Block),以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式(SDK...

MaxCompute湖仓一体概述

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

阿里云提供OSS/OSS-HDFS作为HDFS的替代或补充,扩展云上Hadoop平台的存储能力。JindoTable工具可以将Hive数据根据分区键规则筛选,在HDFS和OSS/OSS-HDFS之间转移分区。本文介绍如何使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS。...

JindoData版本说明

优化Hadoop SDK,解决了在部分场景下可能出现的Hadoop配置并发修改异常ConcurrentModificationException的问题。优化了临时目录异常或者出现坏盘时,JindoMagicCommitter客户端写OSS的重试逻辑,以最大程度保证作业写入成功并避免...

Spark使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端,为OSS提供高度优化Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Spark使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体...

Impala使用JindoSDK查询OSS-HDFS服务中的数据

JindoSDK是一个面向Hadoop、Spark生态且简单易用的OSS客户端,为OSS提供高度优化Hadoop FileSystem实现。相对于Hadoop社区OSS客户端,Impala使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体...

通过HDP 2.6 Hadoop读取和写入OSS数据

HDP(Hortonworks Data Platform)是由Hortonworks发行的大数据平台,包含了Hadoop、Hive、HBase等开源组件。HDP 3.0.1版本中的Hadoop 3.1.1版本已支持OSS,但是低版本的HDP不支持OSS。本文以HDP 2.6.1.0版本为例,介绍如何配置HDP 2.6版本...

搭建与管理(基于Hadoop

通过MaxCompute与Hadoop构建湖仓一体方案旨在实现对海量数据的统一管理、存储和分析,提供了一个既能处理结构化、半结构化数据,又能满足高并发分析需求的一体化数据平台。本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖...

基于Hadoop集群支持Delta Lake或Hudi存储机制

创建外部数据湖连接 参数 说明 异构数据平台类型 选择 阿里云E-MapReduce/Hadoop集群。网络连接 选择已创建的网络连接。操作详情请参见 创建外部数据湖连接。选择外部数据源 选择已创建的外部数据源。操作详情请参见 创建外部数据湖连接。...

MaxCompute+Hadoop搭建实践

参数 说明 异构数据平台类型 选择 阿里云E-MapReduce/Hadoop集群 网络连接 选择已创建的网络连接。例如:test_net。选择外部数据源 此处直接 创建外部数据源,例如:foreign_data。参数详情请参见 外部数据源参数说明。说明 如果集群为高...

创建Hadoop计算源

Hadoop计算源用于绑定Dataphin项目空间与Hadoop项目,为Dataphin项目提供处理离线计算任务的计算源。如果Dataphin系统的计算引擎设置为Hadoop,则只有项目空间添加了Hadoop计算源,才支持规范建模、即席查询、Hive任务、通用脚本等功能。...

函数操作

本文中的命令您可以在如下工具平台执行:MaxCompute客户端 使用SQL分析连接 使用DataWorks连接 MaxCompute Studio 注销函数 在MaxCompute项目中注销已注册的自定义函数。具备注销函数权限(Delete)的用户。查看函数 查看MaxCompute项目中...

数据上云场景

MaxCompute平台提供了丰富的数据上传下载工具,可以广泛应用于各种数据上云的应用场景,本文为您介绍三种经典数据上云场景。Hadoop数据迁移 您可使用MMA、Sqoop和DataWorks进行Hadoop数据迁移。使用DataWorks结合DataX进行Hadoop数据迁移的...

注册EMR集群至DataWorks

背景信息 开源大数据开发平台 E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还...

Spark常见问题

以下配置必须在DataWorks配置项/spark-defaults.conf文件中添加 spark.hadoop.odps.cupid.internet.access.list=aliyundoc.com:443 spark.hadoop.odps.cupid.eni.enable=true spark.hadoop.odps.cupid.eni.info=[region]:[vpcid]如何访问OSS...

迁移开源HDFS的数据到文件存储 HDFS 版

场景B:原集群在其他平台上。使用阿里云高速通道产品连通原集群和迁移集群的网络环境。具体操作,请参见 功能特性。在已配置 文件存储 HDFS 版 的集群上参考以下命令迁移数据。hadoop distcp hdfs:/x.x.x.x:9000/user/hive/warehouse dfs:/...

通过DataWorks将Hadoop数据同步到阿里云ES

当您基于Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析。ES对于多种查询类型,特别是即席查询(Ad Hoc),基本可以达到秒级响应。本文介绍通过DataWorks的数据集成服务,...

计算设置概述

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态,依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...

计算源概述

在机器学习平台中,创建可视化建模的工作空间时,资源请选择基于MaxCompute的计算资源组,详情请参见 资源管理概述。Hologres加速计算源:Dataphin支持为已绑定MaxCompute计算源的项目添加Hologres加速计算源,加速业务数据的查询速度。...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业。作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

通过OSS SDK接入开源生态

使用Flink访问OSS 将HBase快照保存在OSS 将Kafka数据导入OSS 此系列文档由面向开源项目的托管平台GitHub提供。使用Logstash将日志导入OSS 使用Fluentd访问OSS 使用Thanos访问OSS 此文档由开源Thanos社区提供。将Elasticsearch的快照备份至...

分析平台设置

Dataphin分析平台设置为使用分析平台的前提条件。包含分析平台专用的计算源设置、临时表生命周期设置、数据结果下载及审批设置。本文将为您介绍如何进行分析平台设置。前提条件 已完成计算源创建,具体操作,请参见 计算源概述。说明 分析...

搭建Linux开发环境

spark.sql.catalogImplementation={odps|hive}#如下参数配置保持不变 spark.hadoop.odps.task.major.version=cupid_v2 spark.hadoop.odps.cupid.container.image.enable=true spark.hadoop.odps.cupid.container.vm.engine.type=hyper ...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据湖集群(DataLake),以下分别简称“旧集群”和“新集群”。迁移过程将充分考虑旧集群的版本、元数据类型以及存储方式,并针对这些因素,提供适应新集群的迁移策略...

UDF示例:兼容Hive

将 Hive UDF代码示例 通过Hive平台编译为JAR包,执行如下命令将Hive UDF JAR包添加为MaxCompute资源。添加资源。add jar test.jar;更多添加资源信息,请参见 添加资源。执行如下命令注册UDF函数。注册函数。create function hive_collect ...

SHOW

优化器信息收集 测试Column Stats收集结果。SET操作 显示set命令设置的属性。命令格式如下:show flags;说明 更多关于SET操作的介绍,请参见 SET操作。Tunnel操作 显示历史记录。命令格式 tunnel show history[-n];n<number>:tunnel执行的...

SHOW

优化器信息收集 测试Column Stats收集结果。SET操作 显示set命令设置的属性。命令格式如下:show flags;说明 更多关于SET操作的介绍,请参见 SET操作。Tunnel操作 显示历史记录。命令格式 tunnel show history[-n];n<number>:tunnel执行的...

数据湖生态接入

生态类型 引擎/平台 参考文档 开源生态 Elasticsearch 将Elasticsearch的快照备份至OSS Flink 使用Flink访问OSS 开源Flink写入OSS-HDFS服务 Fluentd 使用Fluentd访问OSS Flume Flume使用JindoSDK写入OSS-HDFS服务 Hadoop 自建Hadoop使用...

网络开通流程

您需要开通网络连接以便访问外网或VPC中的目标服务(例如指定IP或域名、RDS、HBase集群、Hadoop集群等)。本文为您介绍MaxCompute与目标服务间的网络结构及支持的网络开通方案。免责声明 MaxCompute提供的公网与VPC访问能力目前属于免费...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将MaxCompute的数据迁移至其它业务平台。背景信息 传统关系型数据库不适合处理海量数据,如果您的数据存放在传统的关系型数据库且数据量庞大...

使用独立的Trino集群

背景信息 在使用开源大数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

创建EMR函数

HadoopHadoop集群开发前准备工作。您需要先上传资源,才可以注册函数。新建EMR资源详情可参考文档:创建和使用EMR资源 操作步骤 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,...

数据读取

本文介绍如何通过 开源大数据平台 EMR(E-MapReduce)控制台,快速创建一个 EMR 集群并使用Spark3读取 表格存储 的数据。前提条件 已使用阿里云账号对 EMR 服务授权。具体操作,请参见 角色授权。已创建 表格存储 数据表。具体操作,请参见...

分析平台概述

说明 分析平台支持MaxCompute、Hadoop、星环TDH 6.x、AnalyticDB for PostgreSQL、ArgoDB、StarRocks类型的离线计算源。完成分析平台计算源创建后,您还需要将创建的计算源绑定到分析平台。具体操作,请参见 分析平台设置。Notebook:基于...

应用场景

弹性扩容:网站活动导致行为数据激增,云平台可以快速按需扩容。大数据分析:可对接Storm、Spark等实时数据处理引擎,亦可对接Hadoop等离线数据仓库系统。日志聚合 许多公司,例如淘宝、天猫等,每天都会产生大量的日志(一般为流式数据,...

创建和使用EMR资源

HadoopHadoop集群开发前准备工作。创建EMR资源 进入 数据开发 页面。登录 DataWorks控制台。在左侧导航栏,单击 工作空间列表。选择工作空间所在地域后,单击相应工作空间后的 快速进入>数据开发。鼠标悬停至 图标,单击 新建资源>EMR>...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景,其中核心组件Flink是阿里云提供的基于Apache ...-MapReduce Hadoop构建的企业级大数据计算平台...

模拟IDC Spark读写MaxCompute实践

本文以开源大数据开发平台E-MapReduce(云上Hadoop)方式模拟本地Hadoop集群,为您介绍如何读写MaxCompute数据。背景信息 实践架构图如下所示。准备开发环境 准备E-MapReduce(EMR)环境。购买EMR集群。详情请参见 E-MapReduce快速入门。...
共有192条 < 1 2 3 4 ... 192 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 开源大数据平台 E-MapReduce 对象存储 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用