文件存储HDFS版(Apsara File Storage for HDFS)是面向阿里云ECS实例及容器服务等计算资源的文件存储服务。您可以像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据那样使用文件存储HDFS版。您无需对现有大...
文件存储 HDFS 版 允许您就像在Hadoop的分布式文件系统中一样管理和访问数据,并对热数据提供高性能的数据访问能力。对象存储OSS是海量、安全、低成本、高可靠的云存储服务,提供标准型、归档型等多种存储类型。您可以在 文件存储 HDFS 版 ...
作为云原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...
如果您需要对HDFS数据进行备份、或者在HDFS存储空间不足且需要弹性扩展存储能力时,您可以通过阿里云EMR集群自动部署的Jindo DistCp工具将HDFS迁移数据到OSS-HDFS。OSS-HDFS与Hadoop生态系统兼容,将HDFS中的数据迁移到OSS-HDFS后,可以...
本文介绍如何开通并授权访问OSS-HDFS服务。前提条件 华东1(杭州)、华东2(上海)、华北1(青岛)、华北2(北京)、华北6(乌兰察布)、华南1(深圳)、华南3(广州)、华北3(张家口)、中国香港、日本(东京)、新加坡、德国(法兰克福...
OSS-HDFS服务是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。说明 本文仅说明相关计费项及付费方式。有关计费项的...
阿里云实时计算Flink支持通过连接器读写OSS以及OSS-HDFS数据。通过配置OSS或者OSS-HDFS连接器的输入属性,实时计算Flink会自动从指定的路径读取数据,并将其作为实时计算Flink的输入流,然后将计算结果按照指定格式写入到OSS或者OSS-HDFS的...
阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝。全量支持...
OSS-HDFS服务是阿里云新推出的存储空间类型,并兼容HDFS接口。JindoSDK支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。相对于本地HDFS存储,OSS-HDFS服务使用更加灵活,且一定程度减少了运维成本。前提...
作为云原生数据湖基础,OSS-HDFS在满足EB级数据分析、亿级文件管理服务、TB级吞吐量的同时,全面融合大数据存储生态,除提供对象存储扁平命名空间之外,还提供了分层命名空间服务。分层命名空间支持将对象组织到一个目录层次结构中进行管理...
String outputPath="oss:/<user-defined-oss-hdfs-bucket.oss-hdfs-endpoint>/<user-defined-dir>"StreamingFileSink<String>sink=StreamingFileSink.forRowFormat(new Path(outputPath),new SimpleStringEncoder("UTF-8")).build();...
String outputPath="oss:/<user-defined-oss-hdfs-bucket.oss-hdfs-endpoint>/<user-defined-dir>"StreamingFileSink<String>sink=StreamingFileSink.forRowFormat(new Path(outputPath),new SimpleStringEncoder("UTF-8")).build();...
阿里云开源大数据开发平台E-MapReduce(简称EMR)特定版本集群默认集成OSS-HDFS服务。本文介绍如何通过EMR集群完成OSS-HDFS服务快速入门的常见操作。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 ...
背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好的满足大数据和AI领域丰富多样的数据湖计算场景,详细信息请参见 OSS-HDFS服务概述。...
Apache Flume是一个分布式、可靠和高可用的系统,用于从大量不同的数据源有效地收集、聚合和移动大量日志数据,进行集中式的数据存储。Flume通过调用flush()保证事务性写入,并通过JindoSDK写入OSS-HDFS服务,确保flush后的数据立刻可见,...
方式二:在配置文件中指定OSS-HDFS服务路径 您可以在Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储于OSS-HDFS服务...
背景信息 阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用MapReduce实现文件分发,错误处理和恢复,把文件和目录的列表作为MapReduce任务的输入,每个任务会完成源列表中部分文件的拷贝...
本文介绍如何将半托管JindoFS集群迁移到OSS-HDFS服务。前提条件 半托管JindoFS集群对应的OSS Bucket已开通OSS-HDFS服务。半托管JindoFS集群已开启AuditLog。使用最新版本JindoSDK。下载地址,请参见 GitHub。步骤一:全量迁移 全量迁移模式...
OSS-HDFS服务(JindoFS服务)完全兼容HDFS接口,同时支持目录层级的操作。JindoSDK为Apache Hadoop的计算分析应用(例如MapReduce、Hive、Spark、Flink等)提供了访问HDFS服务的能力。本文介绍如何通过在ECS实例中部署JindoSDK,然后完成...
在 core-site.xml 文件中配置 将OSS-HDFS服务实现类配置到Spark的 core-site.xml 配置文件中。property><name>fs.AbstractFileSystem.oss.impl</name><value>...
Trino是一个开源的分布式SQL查询引擎,适用于交互式分析查询。本文介绍Trino如何使用JindoSDK查询OSS-HDFS服务中的数据。前提条件 已创建ECS实例。具体步骤,请参见 选购ECS实例。已创建Hadoop环境。具体步骤,请参见 创建Hadoop运行环境。...
相对于Hadoop社区OSS客户端,Impala使用JindoSDK查询OSS-HDFS服务中的数据时,可以获得更好的性能。前提条件 已创建ECS实例。具体步骤,请参见 选购ECS实例。已创建Hadoop环境。具体步骤,请参见 创建Hadoop运行环境。已开通并授权访问OSS-...
方式二:在配置文件中指定OSS-HDFS服务路径 您可以在Hive Metastore的 hive-site.xml 配置文件中设置 hive.metastore.warehouse.dir 到OSS-HDFS服务路径,然后重启Hive Metastore,后续创建的数据库和数据库下的表均默认存储于OSS-HDFS服务...
阿里云开源大数据开发平台E-MapReduce(简称EMR)支持HBase使用OSS-HDFS服务作为底层存储,同时支持存储WAL文件,实现存储与计算分离。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建集群时选择Hbase。具体...
本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS服务。前提条件 已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已创建DataLake集群,并选择了Flume服务。具体操作,请参见 创建集群。已...
本文介绍如何使用JindoTable MoveTo命令将Hive表和分区数据迁移至OSS-HDFS服务。前提条件 已创建EMR-3.36.0及以上版本(除3.39.x版本以外)或EMR-5.2.0(除5.5.x版本以外)及以上版本的集群。具体步骤,请参见 创建集群。已通过Hive命令...
本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建时选择了Sqoop。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通...
如果某个Bucket同时开通OSS-HDFS服务和版本控制,可能导致OSS-HDFS服务异常。为保证OSS-HDFS服务的稳定性,您需要暂停版本控制,同时配置生命周期规则清理删除标记。暂停版本控制 您可以通过OSS控制台、阿里云SDK、命令行工具ossutil等多种...
2023-02-22 17:12:19 End Time:2023-02-22 17:12:37 Total Time(s):18 Total Read Count:10000000 Total Write Count:10000000 Total Failed Count:0*OSS-HDFS 配置说明 使用OssJindoFile将数据输出到OSS-HDFS文件系统。配置参数 名称 类型...
本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务...
本文介绍Presto如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...
本文介绍Impala如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...
背景信息 TPC-DS作为全球权威的数据管理系统评测标准之一,由TPC组织设计和维护,但其官方提供的工具集主要服务于单机数据生成与SQL查询执行,并不适合直接应用于大规模分布式环境下的性能评估。为适用于大数据分析场景,您需要准备以下...
本文介绍如何通过JindoDistCp工具,将第三方云对象存储中的数据迁移到OSS/OSS-HDFS。前提条件 准备迁移环境并下载JindoDistCp工具,参见 JindoDistCp使用说明。已在Hadoop的 core-site.xml 文件里,配置AccessKey ID和AccessKey Secret。...
您可以将数据迁移至OSS-HDFS,或者在OSS-HDFS的不同Bucket之间迁移数据,具体如下:迁移方式 说明 相关文档 阿里云Jindo DistCp 阿里云Jindo DistCp(分布式文件拷贝工具)用于大规模集群内部或集群之间拷贝文件。Jindo DistCp使用...
OSS-HDFS服务使用OSS Bucket存储HDFS数据及其辅助数据,这些数据均存储于Bucket中的.dlsdata/路径下,并产生相应的OSS存储容量的计量和计费。OSS-HDFS文件数据块block OSS-HDFS文件的所有数据块block均占用OSS Bucket的存储空间。OSS-HDFS...
修改文件存储类型 存储类型转换注意事项 解冻Object Bucket Policy 数据无法访问、数据无法自动删除,持续计费 为确保使用OSS-HDFS服务的用户可正常访问OSS-HDFS的数据存储目录.dlsdata/及目录下的任意Object,对开通了OSS-HDFS服务的...
针对以上问题,OSS-HDFS服务支持数据的冷热分层存储,对于经常需要访问的数据以标准类型进行存储,对于较少访问的数据以低频、归档以及冷归档类型进行存储,从而降低总存储成本。前提条件 已在OSS-HDFS服务中写入数据。华东1(杭州)、华东...
本文介绍如何通过OSS控制台访问OSS-HDFS服务。前提条件 已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。操作步骤 登录 OSS管理控制台。单击 Bucket 列表,然后单击目标Bucket名称。在左侧导航栏,选择 文件...