Dataphin支持自定义实时数据源类型,您可以基于自定义的实时数据源类型,创建实时数据源实例、实时数据源类型的元表以及访问自定义实时数据源的Flink SQL任务,以满足实际数据需求开发。本文为您介绍如何自定义实时数据源类型。
使用限制
仅支持开源Flink(Apache Flink)和Ververica Flink计算引擎。
自定义Ververica Flink Connector说明
在Dataphin中完成自定义实时源类型的全部操作后,您还需要前往Ververica Flink实时计算管理控制台执行Connector的注册操作。具体操作,请参见上传与使用自定义连接器。
后续如果需要更新Connector的代码,Dataphin平台和Ververica Flink实时计算平台都需要进行更新。最终生效的Jar,将会是Ververica Flink实时计算平台上传的Connector Jar。
操作步骤
在Dataphin首页,单击顶部菜单栏管理中心->数据源管理。
按照以下操作指引,进入新建离线自定义源类型页面。
依次单击自定义源类型->新建自定义源类型->新建实时数据源类型。
在新建数据源类型页面,配置参数。
参数
描述
类型名称
自定义数据源类型名称,不能超过128个字符。
类型编码
自定义数据源类型的编码。规则如下:
全局唯一。
最多输入64个字符。
仅支持英文、数字、下划线(_)。
不能以数字开头。
说明创建成功后不可修改。
JAR包
上传数据源类型连接器的JAR包。
仅支持
.jar
(不区分大小写)为后缀的文件。文件大小不能超过500MB。
不能与已经存在的数据源的连接器或保留的连接器重复。
文件中仅支持数据源级别的加密参数。
说明自定义实时连接器说明,详情请参见Flink官网。
配置文件
上传数据源类型连接器的配置文件,单击下载配置文件模板进行配置。
仅支持
.yaml
(不区分大小写)为后缀的文件。不能与已经存在的数据源的连接器或保留的连接器重复。
文件中仅支持数据源级别的加密参数。
配置文件详细说明如下:
# 声明connector的使用类型(源表、目标表、维表) kind: source sink dim # 定义connector名称,格式为CUSTOM_([A-Z|0-9]+) connector: CUSTOM_SOCKET # hostname是connector的一个属性,会在DDL的with参数被展示。 # isSensitive:设置为false表示目标属性(例如hostname)在页面不会被加密展示。 # defaultValue:指定目标属性的默认值。 # isRequired:设置为true,代表该属性为必填项,且在页面上以星号(*)展示。 # module:当module的值为datasource时,代表目标属性可以在数据源的页面进行配置;当module的值为table的时候,代表目标属性可以在实时元表的页面进行配置。 hostname: isSensitive: false defaultValue: localhost isRequired: true module: datasource port: isSensitive: false # format:定义了数据输入或输出的序列化格式,其module通常配置为table。 format: name: changelog-csv module: table format_property: line-delimiter: isSensitive: false defaultValue: '/n' isRequired: true column-delimiter: isSensitive: false defaultValue: ','
描述
填写实时自定义源类型的简单描述,128个字符以内。
单击确定,完成自定义实时数据源类型。
后续步骤
完成实时自定义源类型创建后,系统将生成该类型的数据源配置项,您可以将该类型的数据源接入到Dataphin中。更多信息,请参见数据源管理概述。