在Dataphin中创建Kudu数据源-智能数据建设与治理 Dataphin-阿里云

通过创建Kudu数据源能够实现Dataphin读取Kudu的业务数据或向Kudu写入数据。本文为您介绍如何创建Kudu数据源。

背景信息

Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的Hadoop处理引擎（MapReduce，Spark，Impala）。Kudu将数据按照列存储格式，存储在底层Linux文件系统中。

Kudu适用HTAP场景（例如物联网），对于数据处理系统的复杂性提出了更高的要求。从早期的OLTP、OLAP拆分，到后来的Lambda架构，都存在数据复制和同步的复杂性，而Kudu的单一数据架构，规避了传统架构数据复制和同步的复杂性。更多详情请参见Kudu官网。

权限说明

仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。

操作步骤

在Dataphin首页的顶部菜单栏中，选择管理中心 > 数据源管理。
在数据源页面，单击+新建数据源。
在新建数据源页面的大数据存储区域，选择Kudu。
如果您最近使用过Kudu，也可以在最近使用区域选择Kudu。同时，您也可以在搜索框中，输入Kudu的关键词，快速筛选。

在新建Kudu数据源页面中，配置连接数据源参数。

配置数据源的基本信息。

参数	描述
数据源名称	命名规则如下：只能包含中文、英文字母大小写、数字、下划线（_）或短划线（-）。长度不能超过64字符。
数据源编码	配置数据源编码后，您可以在Flink_SQL任务中通过`数据源编码.表名称`或`数据源编码.schema.表名称`的格式引用数据源中的表；如果需要根据所处环境自动访问对应环境的数据源，请通过`${数据源编码}.table`或`${数据源编码}.schema.table`的变量格式访问。更多信息，请参见Dataphin数据源表开发方式。重要数据源编码配置成功后不支持修改。数据源编码配置成功后，才能在资产目录和资产清单的对象详情页面进行数据预览。 Flink SQL中，目前仅支持MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB数据源。
版本	根据实际情况，选择Kudu对应版本。版本支持： CHD5:1.16 CHD6:1.16 CDP7.1.3:1.16。
数据源描述	对数据源的简单描述。不得超过128个字符。
数据源配置	选择需要配置的数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。
标签	您可根据标签给数据源进行分类打标，如何创建标签，请参见管理数据源标签。

配置数据源与Dataphin的连接参数。

若您的数据源配置选择生产+开发数据源，则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源，仅需配置生产数据源的连接信息。

说明

通常情况下，生产数据源和开发数据源需配置非同一个数据源，以使开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。

参数	描述
连接地址	输入连接Kudu数据源的连接地址。格式示例为`ip1:port1,ip2:port2`。
Kerberos	Kerberos是一种基于对称密钥技术的身份认证协议，可以为目标服务提供身份认证功能。如果Kudu设置Kerberos认证，则需要开启Kerberos。开启后需要配置以下参数： krb5文件配置或KDC Server：上传包含Kerberos认证域名的Krb5文件或配置KDC服务器地址，辅助完成Kerberos认证。说明支持配置多个KDC Server服务地址，使用英文逗号（,）分隔。 Keytab File：上传Kerberos认证的Keytab文件。 Principal：配置Kerberos认证的Principal名。格式示例为`xxxx/hadoopclient@xxx.xxx`。如果Kudu没有Kerberos认证，则不需要开启Kerberos。
配置文件	上传Hadoop配置文件。说明仅当Kerberos选择开启时，支持上传配置文件。
表前缀	输入表前缀。当使用同一个Kudu服务时，通过表前缀可以有效的进行生产和开发隔离。例如同一个kudu服务和Impala等多个存储系统结合使用时，可以将Impala作为表的前缀，用来标识来源数据为Impala，以便和其他存储系统中的表区分。

选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。
进行测试连接或直接单击确定进行保存，完成Kudu数据源的创建。
单击测试连接，系统将测试数据源是否可以和Dataphin进行正常的连通。若直接单击确定，系统将自动对所有已选中的集群进行测试连接，但即使所选中的集群均连接失败，数据源依然可以正常创建。