Data Studio支持可视化创建并管理CDH Jar和File资源,创建的资源可用于创建自定义函数或在数据开发。本文将介绍如何通过资源管理来创建CDH不同类型的资源和函数。
前提条件
已注册CDH集群至DataWorks,创建资源与函数均基于Flink计算资源进行相关操作。
已完成资源文件的开发,文件可从本地上传。
进入资源管理
进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的 ,进入Data Studio。
在左侧导航栏单击资源管理按钮
,进入资源管理页面。
在资源管理页面,单击
按钮进行新建资源或函数。您也可以先新建目录,规划资源管理目录后,再在相应目录上右键,选择新建,选择需要创建的资源或函数类型。
创建并使用资源
资源说明
在Data Studio资源与函数管理中,可将本地资源通过DataWorks上传至CDH集群,支持创建的资源如下表所示,用于在DataWorks中开发Flink作业,或用来创建自定义函数中。
资源类型 | 描述 | 支持的上传方式 | |
本地 | OSS | ||
CDH Jar | 编译好的Java JAR包,用于运行Java程序。后缀为 | ||
CDH File | 支持将任意类型的文件上传为File资源,实际使用时请以各引擎支持情况为准。 |
使用限制
上传资源需符合以下限制:
资源大小:最大支持上传500MB的资源。
资源发布:若您使用的是标准模式的工作空间,则需将资源发布至生产环境。发布后,生产环境的项目才会存在该资源。
说明开发环境和生产环境的数据源信息可能存在差异,查询对应环境的表、资源等操作前,请先确认相应环境的数据源信息。
资源管理:DataWorks仅支持查看与管理通过DataWorks上传的资源。
创建资源
CDH资源支持本地上传,创建好的该资源可直接在数据开发中引用,也可以创建为函数使用。
在资源管理页面,创建资源打开新建资源和函数弹窗时,配置资源的类型、存储的路径以及资源名称。
新建资源后需上传本地文件,作为文件来源,以下为上传资源时的关键参数:
配置项
配置说明
存储路径
默认为
/user/admin/lib
。说明若开启了kerberos认证,需先授权当前登录用户对此目录的写权限。
数据源
选择CDH已创建的数据源。
资源组
选择与CDH集群连通性正常的Serverless资源组。
在上方工具栏对资源保存并发布,只有发布后的资源才能在数据开发中使用。
使用资源
完成资源创建后,在进行数据开发时,在左侧导航栏单击资源管理,然后找到目标资源或函数后,右键选择引用资源。引用资源成功后,会显示##@resource_reference{"资源名称"}
格式的代码。
例如,CDH Hive
节点显示的样式为##@resource_reference{"example"}
。各类型节点显示格式存在差异,请以实际界面为准。
除了直接使用资源外,还可将资源创建为函数,再在开发节点中使用。
创建并使用函数
函数说明
Data Studio支持将资源注册为CDH函数,在数据开发或SQL查询中,您可以使用Hive提供的内建函数和创建的自定义函数。
创建函数
在资源管理页面,创建函数打开新建资源和函数弹窗时,配置下拉配置函数的类型、存储的路径以及函数名称。
单击确认,新建函数资源,并根据函数类型,配置函数的相关信息。
配置CDH函数前,需确保已将CDH引擎在DataWorks内注册为了计算资源,并已上传CDH类型的资源,以下是CDH函数的关键配置说明。
参数
描述
函数类型
选择函数类型,包括MATH(数学运算函数)、AGGREGATE(聚合函数)、STRING(字符串处理函数)、DATE(日期函数)、ANALYTIC(窗口函数)和OTHER(其他函数)。
数据源
从下拉列表中选择已创建的CDH数据源。
类名
UDF函数的类名,格式为
资源名.类名
。其中,资源名可以为Java包名称或文件资源名称。DataWorks创建自定义函数时支持使用JAR及File两种类型的CDH资源,当资源类型为JAR时,配置的类名格式为
Java包名称.实际类名
,您可以在IntelliJ IDEA
中通过Copy Reference
语句获取。例如,com.aliyun.cdh.examples.udf
为Java包的名称,UDAFExample
为实际类名,则类名参数配置为com.aliyun.cdh.examples.udf.UDAFExample
。
说明填写资源名称时,无需添加
.jar
后缀。资源需要发布后才可以使用。
资源列表
CDH函数,仅支持可视化模式,下拉选择CDH Jar或CDH File资源。
命令格式
该UDF的具体使用方法示例。
在上方工具栏对函数保存并发布,只有发布后的函数才能在数据开发中使用。
使用函数
函数创建完成并发布后,在数据开发或SQL查询中,可直接引用创建的函数。
在编辑数据开发节点时,在左侧导航栏单击资源管理,然后找到目标资源或函数后,右键选择引用函数。
引用函数成功后,在当前节点编辑页面快速生成自定义函数名称,例如:
example_function()
。在编辑SQL查询时,可直接使用已创建的函数。
SELECT example_function(column_name) FROM table;
管理资源与函数
通过Data Studio可视化方式上传的资源或创建函数后,在资源管理页面,可通过单击目标资源或函数,对资源或函数进行管理。
查看历史版本:单击资源或函数编辑页面右侧的版本按钮,您可查看、对比已保存或已提交的函数版本,获取不同版本的资源变更情况。
说明版本对比时,至少需选择两个版本进行比对。
删除资源或函数:鼠标右键单击目标资源或函数,选择删除按钮,删除资源或函数。
若需删除生产环境下该资源或函数,则需进行任务发布,将资源删除操作发布至生产环境,发布成功后,生产环境该资源函数才会同步删除。