文件存储HDFS版

文件存储HDFS版(Apsara File Storage for HDFS)是面向阿里ECS实例及容器服务等计算资源的文件存储服务。您可以像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据那样使用文件存储HDFS版。您无需对现有大...

文件存储 HDFS 对象存储OSS双向数据迁移

文件存储 HDFS 允许您就像在Hadoop的分布式文件系统中一样管理和访问数据,并对热数据提供高性能的数据访问能力。对象存储OSS是海量、安全、低成本、高可靠的存储服务,提供标准型、归档型等多种存储类型。您可以在 文件存储 HDFS ...

什么是OSS-HDFS服务

作为原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...

迁移HDFS数据到OSS-HDFS

如果您需要对HDFS数据进行备份、或者在HDFS存储空间不足且需要弹性扩展存储能力时,您可以通过阿里EMR集群自动部署的Jindo DistCp工具将HDFS迁移数据到OSS-HDFSOSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以...

开通并授权访问OSS-HDFS服务

本文介绍如何开通并授权访问OSS-HDFS服务。前提条件 华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、华南3(广州)、华北3(张家口)、中国香港、日本(东京)、新加坡、德国(法兰克福...

OSS-HDFS元数据管理费用

OSS-HDFS服务是一款原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。说明 本文仅说明相关计费项及付费方式。有关计费项的...

实时计算Flink读写OSS或者OSS-HDFS

阿里实时计算Flink支持通过连接器读写OSS以及OSS-HDFS数据。通过配置OSS或者OSS-HDFS连接器的输入属性,实时计算Flink会自动从指定的路径读取数据,并将其作为实时计算Flink的输入流,然后将计算结果按照指定格式写入到OSS或者OSS-HDFS的...

迁移HDFS数据到OSS

阿里Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。全量支持...

HBase使用OSS-HDFS服务作为底层存储

OSS-HDFS服务是阿里新推出的存储空间类型,并兼容HDFS接口。JindoSDK支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。相对于本地HDFS存储OSS-HDFS服务使用更加灵活,且一定程度减少了运维成本。前提...

Hadoop使用JindoSDK访问OSS-HDFS服务

作为原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...

开源Flink写入OSS-HDFS服务

String outputPath="oss:/<user-defined-oss-hdfs-bucket.oss-hdfs-endpoint>/<user-defined-dir>"StreamingFileSink<String>sink=StreamingFileSink.forRowFormat(new Path(outputPath),new SimpleStringEncoder("UTF-8")).build();...

EMR Flink写入OSS-HDFS服务

String outputPath="oss:/<user-defined-oss-hdfs-bucket.oss-hdfs-endpoint>/<user-defined-dir>"StreamingFileSink<String>sink=StreamingFileSink.forRowFormat(new Path(outputPath),new SimpleStringEncoder("UTF-8")).build();...

EMR集群接入OSS-HDFS服务快速入门

阿里开源大数据开发平台E-MapReduce(简称EMR)特定版本集群默认集成OSS-HDFS服务。本文介绍如何通过EMR集群完成OSS-HDFS服务快速入门的常见操作。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 ...

在EMR Hive或Spark中访问OSS-HDFS

背景信息 OSS-HDFS服务是一款原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见 OSS-HDFS服务概述。...

Flume使用JindoSDK写入OSS-HDFS服务

Apache Flume是一个分布式、可靠和高可用的系统,用于从大量不同的数据源有效地收集、聚合和移动大量日志数据,进行集中式的数据存储。Flume通过调用flush()保证事务性写入,并通过JindoSDK写入OSS-HDFS服务,确保flush后的数据立刻可见,...

Hive使用JindoSDK处理OSS-HDFS服务中的数据

方式二:在配置文件中指定OSS-HDFS服务路径 您可以在Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储OSS-HDFS服务...

迁移OSS-HDFS服务不同Bucket之间的数据

背景信息 阿里Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝...

迁移半托管JindoFS集群数据到OSS-HDFS服务

本文介绍如何将半托管JindoFS集群迁移到OSS-HDFS服务。前提条件 半托管JindoFS集群对应的OSS Bucket已开通OSS-HDFS服务。半托管JindoFS集群已开启AuditLog。使用最新版本JindoSDK。下载地址,请参见 GitHub。步骤一:全量迁移 全量迁移模式...

非EMR集群接入OSS-HDFS服务快速入门

OSS-HDFS服务(JindoFS服务)完全兼容HDFS接口,同时支持目录层级的操作。JindoSDK为Apache Hadoop的计算分析应用(例如MapReduce、Hive、Spark、Flink等)提供了访问HDFS服务的能力。本文介绍如何通过在ECS实例中部署JindoSDK,然后完成...

Spark使用JindoSDK查询OSS-HDFS服务中的数据

在 core-site.xml 文件中配置 将OSS-HDFS服务实现类配置到Spark的 core-site.xml 配置文件中。property><name>fs.AbstractFileSystem.oss.impl</name><value>...

Trino使用JindoSDK查询OSS-HDFS服务中的数据

Trino是一个开源的分布式SQL查询引擎,适用于交互式分析查询。本文介绍Trino如何使用JindoSDK查询OSS-HDFS服务中的数据。前提条件 已创建ECS实例。具体步骤,请参见 选购ECS实例。已创建Hadoop环境。具体步骤,请参见 创建Hadoop运行环境。...

Impala使用JindoSDK查询OSS-HDFS服务中的数据

相对于Hadoop社区OSS客户端,Impala使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体步骤,请参见 选购ECS实例。已创建Hadoop环境。具体步骤,请参见 创建Hadoop运行环境。已开通并授权访问OSS-...

Hive以EMR集群的方式处理OSS-HDFS服务中的数据

方式二:在配置文件中指定OSS-HDFS服务路径 您可以在Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储OSS-HDFS服务...

HBase以EMR集群的方式使用OSS-HDFS服务作为底层存储

阿里开源大数据开发平台E-MapReduce(简称EMR)支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建集群时选择Hbase。具体...

使用Flume同步EMR Kafka集群的数据至OSS-HDFS服务

本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS服务。前提条件 已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已创建DataLake集群,并选择了Flume服务。具体操作,请参见 创建集群。已...

迁移Hive表和分区数据到OSS-HDFS服务

本文介绍如何使用JindoTable MoveTo命令将Hive表和分区数据迁移至OSS-HDFS服务。前提条件 已创建EMR-3.36.0及以上版本(除3.39.x版本以外)或EMR-5.2.0(除5.5.x版本以外)及以上版本的集群。具体步骤,请参见 创建集群。已通过Hive命令...

Sqoop以EMR集群的方式读写OSS-HDFS服务的数据

本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建时选择了Sqoop。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通...

同时开通OSS-HDFS服务和版本控制的Bucket如何处理?

如果某个Bucket同时开通OSS-HDFS服务和版本控制,可能导致OSS-HDFS服务异常。为保证OSS-HDFS服务的稳定性,您需要暂停版本控制,同时配置生命周期规则清理删除标记。暂停版本控制 您可以通过OSS控制台、阿里SDK、命令行工具ossutil等多种...

通过SeaTunnel集成平台将数据写入OSS-HDFS服务

2023-02-22 17:12:19 End Time:2023-02-22 17:12:37 Total Time(s):18 Total Read Count:10000000 Total Write Count:10000000 Total Failed Count:0*OSS-HDFS 配置说明 使用OssJindoFile将数据输出到OSS-HDFS文件系统。配置参数 名称 类型...

Spark以EMR集群的方式处理OSS-HDFS服务中的数据

本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务...

Presto以EMR集群的方式查询OSS-HDFS服务中的数据

本文介绍Presto如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...

Impala以EMR集群的方式查询OSS-HDFS服务中的数据

本文介绍Impala如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...

通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark

背景信息 TPC-DS作为全球权威的数据管理系统评测标准之一,由TPC组织设计和维护,但其官方提供的工具集主要服务于单机数据生成与SQL查询执行,并不适合直接应用于大规模分布式环境下的性能评估。为适用于大数据分析场景,您需要准备以下...

使用JindoDistCp工具迁移第三方云对象存储数据到OSS/...

本文介绍如何通过JindoDistCp工具,将第三方云对象存储中的数据迁移到OSS/OSS-HDFS。前提条件 准备迁移环境并下载JindoDistCp工具,参见 JindoDistCp使用说明。已在Hadoop的 core-site.xml 文件里,配置AccessKey ID和AccessKey Secret。...

数据迁移概述

您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:迁移方式 说明 相关文档 阿里Jindo DistCp 阿里Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用...

存储空间占用情况

OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据均存储于Bucket中的.dlsdata/路径下,并产生相应的OSS存储容量的计量和计费。OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS...

使用前须知

修改文件存储类型 存储类型转换注意事项 解冻Object Bucket Policy 数据无法访问、数据无法自动删除,持续计费 为确保使用OSS-HDFS服务的用户可正常访问OSS-HDFS的数据存储目录.dlsdata/及目录下的任意Object,对开通了OSS-HDFS服务的...

冷热分层存储

针对以上问题,OSS-HDFS服务支持数据的冷热分层存储,对于经常需要访问的数据以标准类型进行存储,对于较少访问的数据以低频、归档以及冷归档类型进行存储,从而降低总存储成本。前提条件 已在OSS-HDFS服务中写入数据。华东1(杭州)、华东...

通过OSS控制台访问

本文介绍如何通过OSS控制台访问OSS-HDFS服务。前提条件 已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。操作步骤 登录 OSS管理控制台。单击 Bucket 列表,然后单击目标Bucket名称。在左侧导航栏,选择 文件...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
对象存储 文件存储HDFS版 文件存储 CPFS 混合云存储 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用