阿里云EMR Trino如何动态加载和删除UDF_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

本文为您介绍阿里云EMR Trino如何动态加载和更新自定义函数（UDF）。

背景信息

EMR-3.39.1之前版本和EMR-5.5.0之前版本的Trino新增UDF需要把JAR包上传到所有节点，然后重启服务器生效，此方式不是很方便。在on ACK场景下，如果需要使用新的UDF，还需重新打镜像，此方式不太友好。因此EMR-3.39.1及之后版本和EMR-5.5.0及之后版本的阿里云EMR Trino实现了UDF的动态加载和删除。

使用限制

EMR-3.39.1及后续版本、EMR-5.5.0及后续版本的Hadoop集群或选择了Trino的集群，支持UDF的动态加载和删除。

注意事项

如果本文示例中的xxxxxx的内容为现有连接器，例如hive、mysql等，执行DROP命令会直接删除该连接器目录下的所有内容，且无法恢复，因此请谨慎操作。
集群扩容时，扩容新增的节点不含上传到原有节点的UDF包，因此在扩容前需先执行DROP命令，扩容完成后再重新执行ADD命令。
如果HDFS或OSS访问失败，请尝试使用hadoop fs -ls命令，确认集群的每个节点能否直接访问到对应文件。如果某个Worker节点无法访问，可以在对应Worker节点的server.log日志文件中查找原因。

步骤一：环境准备

将UDF对应的JAR包文件放在对应的文件系统中。

目前UDF文件支持以下两种方式：

方式一：将UDF的全部内容打成一个JAR包（例如，udfjar.jar），上传到文件系统中。如果OSS属于其他账号，或使用的是ACK集群，则需保证该JAR包有公开的读权限。
重要
- 包名不可与现有连接器或UDF重名。
- 建议包名只包含字母数字，否则可能出现不识别的情况。
- Trino无法直接使用Presto的UDF，需修改包名后重新编译，否则可能导致添加失败。
方式二：如果UDF依赖多个JAR包，且不想打成一个包，可以将UDF的所有JAR包上传到同一个目录下（例如，udfdir），再将该目录完整上传到文件系统中。
重要
- 目录名不可与现有连接器或UDF重名。
- 目录下尽量不要有无关内容。
- 目录需要配置权限。

步骤二：添加UDF

启动客户端，连接Trino，并输入以下指令添加UDF包。
1. 通过SSH方式登录集群，详情请参见登录集群。
2. 执行如下命令，进入Trino控制台。
```
trino --server master-1-1:9090
```
执行如下命令，添加UDF。
此操作会在Trino安装路径的plugin目录下新建一个文件夹，然后将路径所对应的文件上传到新建的文件夹下，并刷新当前函数列表。
语法为add jar "xxxxxx" ;。
说明
若在执行添加UDF时报错，您可以在Worker节点的/mnt/disk1/log/trino/var/log/server.log日志文件中查找原因。
- 如果是步骤一：环境准备中的方式一，则对应命令如下。
```
add jar "oss://路径/udfjar.jar";
```
- 如果是步骤一：环境准备中的方式二，则对应命令如下。
```
add jar "oss://路径/udfdir";
```
  此时Trino能够识别出要上传的是一个目录，并将目录下的所有内容下载到集群上。
- 如果是将UDF文件保存在HDFS上，则对应命令如下。
```
add jar "hdfs://xxxxxx";
```
- 如果是将UDF文件保存在本地文件系统上，则对应命令如下。
```
add jar "file:///xxxxxx";
```
  重要
  在使用本地文件系统时，需要将UDF文件上传到Trino运行的所有节点的对应路径下，file后面需要三个正斜线（/）。

步骤三：删除UDF

直接删除plugin目录下对应名称的整个目录，指定UDF包名即可删除UDF，并重新加载函数列表。

语法为DROP JAR xxxxxx ;。

说明

语法中的xxxxxx为上传的文件名，同时也是Trino读取UDF plugin的路径名。

删除语句不需要加引号，且无论通过方式一还是方式二上传，删除时均不需要加jar后缀。示例如下：

drop jar udfjar;
drop jar udfdir;