使用Hadoop命令操作OSS/OSS-HDFS_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

在使用阿里云EMR Serverless Spark的Notebook时，您可以通过Hadoop命令直接访问OSS或OSS-HDFS数据源。本文将详细介绍如何通过Hadoop命令操作OSS/OSS-HDFS。

前提条件

EMR Serverless Spark环境准备：
- 已创建Notebook会话，本文引擎版本以esr-4.1.1版本为例，详情请参见管理Notebook会话。
- 已创建Notebook开发，详情请参见Notebook开发。
OSS服务准备：
- 已开通OSS服务并创建了存储空间，详情请参见开通OSS服务和创建存储空间。
- 如需使用OSS-HDFS服务，需先开通此服务，具体操作请参见开通OSS-HDFS服务。
权限配置：
如需跨账号访问OSS/OSS-HDFS，必须配置相应的权限，具体操作请参见如何跨账号访问阿里云OSS。
说明
本文示例中，在OSS控制台配置的授权操作为读/写，您可以根据实际情况进行相应的授权操作。

仅以下引擎版本支持本文操作：

在当前版本中，您可以对OSS/OSS-HDFS进行以下操作，包括但不限于：

您可以执行!hadoop fs -help命令，查看相关帮助信息。

说明

目前，Jindo CLI支持的FS命令均可在Notebook中使用，相关命令、命令示例及适用范围详见：Jindo CLI使用指南，其中命令示例在Notebook中使用时，需要将jindo替换为!hadoop。

OSS/OSS-HDFS的访问路径如下所示：

其中，涉及参数说明如下：

在Notebook开发中，您可以通过 !hadoop fs 命令直接执行以下操作。

使用 -ls 参数列出指定路径下的文件和目录。

!hadoop fs -ls oss://<bucketName>/<object-path>

示例1：列出spark路径下的所有文件和目录。
```
!hadoop fs -ls oss://my-bucket/spark/
```
返回信息如下所示。
示例2：结合 -ls 和 grep 命令查找所有包含 “user” 的文件和目录。
```
!hadoop fs -ls oss://my-bucket/spark/ | grep user
```
返回信息如下所示。

使用 -mv 参数将文件或目录移动到目标路径。

!hadoop fs -mv oss://<bucketName>/<object-path>/source  oss://<bucketName>/<object-path>/destination

例如，移动sr路径下的file.txt到user路径下。如果目标路径已存在，文件将被覆盖。

!hadoop fs -mv oss://my-bucket/sr/file.txt oss://my-bucket/user/file.txt

使用 -cp 参数将文件或目录从源路径复制到目标路径。

!hadoop fs -cp oss://<bucketName>/<object-path>/source oss://<bucketName>/<object-path>/destination

例如，复制spark路径下的file.txt到spark2路径下。如果目标路径已存在，文件将被覆盖。

!hadoop fs -cp oss://my-bucket/spark/file.txt oss://my-bucket/spark2/file.txt

使用 -stat 和合适的参数查看指定文件或目录的详细信息。

!hadoop fs -stat oss://<bucketName>/<object-path>/to/file

例如，查看file.txt文件的基本元数据。

!hadoop fs -stat oss://my-bucket/spark/file.txt