本文介绍在E-MapReduce作业配置中如何通过OSS配置输入和输出数据源。

OSS URI

在使用E-MapReduce时,您将会使用两种OSS URI,分别是:
  • native URI: oss://[accessKeyId:accessKeySecret@]bucket[.endpoint]/object/path

    您在作业中指定输入输出数据源时使用这种URI,可以类比hdfs://。您操作OSS数据时,可以将accessKeyId,accessKeySecret以及endpoint配置到Configuration中,也可以在URI中直接指定accessKeyId,accessKeySecret以及endpoint。

  • ref URI: ossref://bucket/object/path

    只在E-MapReduce作业配置时有效,用来指定作业运行需要的资源。

    例如以下作业配置示例:作业配置

我们把oss与ossref这样的前缀称为scheme。在使用过程中,需要特别注意URI中scheme的不同。

注意

当前所有操作都只支持标准存储类型的OSS。

  • E-MapReduce使用multipart方式向OSS上传大文件。需要注意,当作业异常中断后,OSS中会残留作业的部分结果数据,需要您手动删掉。这里的行为和使用HDFS的方式是一致的。但有一个区别,E-MapReduce会用到multipart方式上传大文件,此时会将文件碎片上传到OSS的碎片管理中,所以您不仅要删除OSS文件管理中的作业残留文件,还需将OSS碎片管理中的文件碎片清理一次,否则会产生数据存储费用。
  • 除了上述手动清理,您也可以配置碎片的生命周期,配置完成后过期的文件碎片会被自动清理掉。详情请参见OSS的文件生命周期管理说明