本文为您介绍Hive之外其他类型作业迁移时的注意事项。

UDF和MapReduce迁移

  • 支持相同逻辑的UDF和MapReduce输入、输出参数的映射转换,但UDF和MapReduce内部逻辑需要您自行维护。
  • 不支持在UDF、MapReduce中直接访问文件系统、网络访问、外部数据源连接。
  • Hive UDF兼容示例,请参见Hive UDF兼容示例

外表迁移

  • 原则上数据会全部迁到MaxCompute内部表。
  • 如果必须通过外表访问外部文件,建议先将文件迁移到OSS,然后在MaxCompute中创建外部表,实现对文件的访问。
  • MaxCompute外部表支持的格式包括ORC、PARQUET、SEQUENCEFILE、RCFILE、AVRO和TEXTFILE。

Spark作业迁移

  • 如果作业无需访问MaxCompute表和OSS,可直接运行Jar包,请参见《MaxCompute Spark开发指南》准备开发环境和修改配置。
    说明 对于Spark或Hadoop的依赖必须设成provided
  • 如果作业需要访问MaxCompute表,请参见《MaxCompute Spark开发指南》中访问MaxCompute表所需依赖编译Datasource并安装到本地Maven仓库,在pom.xml中添加依赖后重新打包即可。
  • 如果作业需要访问OSS,请参见《MaxCompute Spark开发指南》中OSS依赖,在pom.xml中添加依赖后重新打包即可。