本文介绍在E-MapReduce作业配置中使用的OSS URI。
OSS URI
使用E-MapReduce时,通常会使用两种OSS URI:
- native URI:oss://bucket[.endpoint]/object/path。
您在作业中指定输入输出数据源时使用此URI,等同于hdfs://。您操作OSS数据时,可以将AccessKey Id、AccessKey Secret以及Endpoint配置到Configuration中。
- ref URI:ossref://bucket/object/path
仅在E-MapReduce作业配置时有效,用来指定作业运行需要的资源。
例如,以下作业配置示例:
重要
当前所有操作仅支持标准存储类型的OSS。
E-MapReduce使用Multipart方式向OSS上传大文件。当作业异常中断后,OSS中会残留作业的部分结果数据,需要您手动删掉。此方式和使用HDFS的方式是一致的,区别在于,E-MapReduce会用到Multipart方式上传大文件,会上传文件碎片到OSS的碎片管理中,所以您不仅要删除OSS文件管理中的作业残留文件,还需将OSS碎片管理中的文件碎片清理一次,否则会产生数据存储费用。您也可以配置碎片的生命周期,配置完成后过期的文件碎片会被自动清理掉。