本文为您介绍Hive之外其他类型作业迁移时的注意事项。
UDF和MapReduce迁移
- 支持相同逻辑的UDF和MapReduce输入、输出参数的映射转换,但UDF和MapReduce内部逻辑需要您自行维护。
- 不支持在UDF、MapReduce中直接访问文件系统、网络访问、外部数据源连接。
- Hive UDF兼容示例,请参见兼容Hive UDF。
外表迁移
- 原则上数据会全部迁到MaxCompute内部表。
- 如果必须通过外表访问外部文件,建议先将文件迁移到OSS,然后在MaxCompute中创建外部表,实现对文件的访问。
- MaxCompute外部表支持的格式包括ORC、PARQUET、SEQUENCEFILE、RCFILE、AVRO和TEXTFILE。
Spark作业迁移
- 如果作业无需访问MaxCompute表和OSS,可直接运行Jar包,请参见《MaxCompute Spark开发指南》准备开发环境和修改配置。
说明 对于Spark或Hadoop的依赖必须设成provided。
- 如果作业需要访问MaxCompute表,请参见《MaxCompute Spark开发指南》中访问MaxCompute表所需依赖编译Datasource并安装到本地Maven仓库,在pom.xml中添加依赖后重新打包即可。
- 如果作业需要访问OSS,请参见《MaxCompute Spark开发指南》中OSS依赖,在pom.xml中添加依赖后重新打包即可。