识别特征基于字段的数据内容、元数据属性,结合属于、正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别特征。本文为您介绍如何创建及管理识别特征。
前提条件
识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行,请结合两个模块的使用场景合理配置,以减少语义冲突、资源浪费等问题的产生。
智能生成处于公测阶段,如您有相关需求,请联系Dataphin技术支持。
权限说明
超级管理员、数据标准管理员、安全管理员和具有识别特征-管理权限的自定义全局角色支持新建及管理识别特征。
新建识别特征
在Dataphin首页的顶部菜单栏,选择治理 > 数据安全。
在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击新建特征按钮。
在添加特征对话框中,配置参数。
参数
描述
特征名称
请填写识别特征的名称,名称唯一,最多输入128字符。
特征条件
支持选择按内容扫描、按字段名称扫描、按字段描述扫描、按数据类型扫描。
按内容扫描:根据采样读取目标字段数据内容进行识别和判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。识别阈值:只有内容匹配率超过识别阈值,该规则才会被认为是有效识别,进入该字段的识别结果中进行比较。
按字段名称扫描:根据元数据中的字段名称进行扫描判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。
按字段描述扫描:根据元数据中的字段描述进行扫描判断。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为
.*test.*
。包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。
按数据类型扫描:根据元数据中的字段的数据类型进行扫描判断。
属于:支持选择的数据类型包括tinyint、smallint、mediumint、int、bigint、decimal、bit、date、datetime、timestamp、varchar、text、json、string;若无所需数据类型,您可以自定义输入数据类型。
正则(大小写兼容):在输入框中输入正则表达式。例如,如果您需要匹配带有int的数据类型,则正则表达式定义为
.*int*
,同时进行扫描结果的大小写兼容处理。正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配带有int的数据类型,则正则表达式定义为
.*int.*
。包含/不包含:关键词匹配,如匹配数值类型的数据类型,输入int。
说明至少配置一条规则。如需添加规则,请单击+添加规则按钮。
最多配置10条规则,且最多配置2层关系。
过滤条件之间的关系可配置为且、或。
描述
请填写识别特征相关使用场景的描述。不超过1000个字符。
单击确定,完成识别特征添加。
管理识别特征
在识别特征页面,为您展示识别特征的名称、描述、类型、最近更新人以及最近更新时间信息。
(可选)您可以根据识别特征的名称搜索目标识别特征,也可以根据识别特征的类型筛选目标识别特征。
您可以对目标识别特征执行如下操作。
操作
描述
查看
支持查看识别特征的配置信息。
编辑
支持修改自定义识别特征的内容,修改后,引用当前识别特征的相关识别任务会同步更新,请及时同步相关业务人员。
克隆
支持快捷复制已创建识别特征的配置信息用于新建识别特征。
删除
支持删除自定义识别特征,删除后,当前识别特征会从已经引用的相关识别任务中自动删除,请谨慎操作。
后续步骤
智能生成
Dataphin支持基于百炼大模型平台或通义千问等大模型能力,根据输入的识别特征名称自动识别含义,智能生成可表达特征数据内容的正则表达式和可能的字段名称,快速推荐识别特征定义,降低配置成本并提升准确度。当前该功能处于邀测阶段,如您感兴趣,请联系产品团队沟通。