在执行任务前,可通过上传所需的文件、JAR包等资源,或加载文件目录至EMR Serverless Spark,以确保任务运行时可以无缝地访问所需资源。
背景信息
托管文件目录:通过界面直接上传本地文件到指定的存储空间,并在任务运行时直接访问这些文件。
纳管文件目录:将OSS Bucket作为文件系统挂载到Notebook会话资源中,直接访问OSS上的文件,无需手动上传。
使用限制
在使用托管文件目录功能时,单次上传的文件大小不得超过 500MB。
托管文件目录
上传文件
进入资源上传页面。
在左侧导航栏,选择
。在Spark页面,单击目标工作空间的名称。
在EMR Serverless Spark页面,单击左侧导航栏中的文件管理。
在托管文件目录页面,单击上传文件。
在上传文件对话框中,单击待上传文件区域选择本地文件,或者直接拖拽目标文件到待上传文件区域。
管理文件及文件夹
在托管文件目录页面,您可以对已有的文件及文件夹进行以下操作:
文件:
下载文件:将文件下载到本地。
复制地址:获取文件的访问路径。
删除:删除文件。
文件夹:您可以进行新建文件夹、重命名和删除操作。
纳管文件目录
纳管文件目录当前仅支持挂载到Driver,不支持挂载到Executor。
在添加纳管文件目录后,具有工作空间文件编辑权限的成员可以通过文件管理界面对文件及文件夹进行编辑;而拥有数据开发相关权限的成员则可以通过Notebook进行文件及文件夹的读写操作。
新增文件目录
在纳管文件目录页面,单击新增文件目录。
在创建文件目录对话框中,配置以下信息,单击确定。
参数
说明
名称
文件目录的名称。
OSS路径
选择有权限的OSS存储路径。需要确保工作空间执行角色具有访问该路径的权限。
挂载目录
默认为
/mnt/workspace
,支持自定义修改,但必须位于/mnt
路径下。
删除文件目录
在删除文件目录时,仅仅是解除工作空间文件目录与OSS存储路径之间的关联关系,而并不会删除该OSS路径下的文件。
在纳管文件目录页面,单击操作列的删除。
单击确定。
后续操作
在上传资源后,您可以在后续的任务开发中将已上传的文件作为依赖项或输入数据源来调用。