创建及管理识别特征

识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别特征。本文为您介绍如何创建及管理识别特征。

前提说明

识别特征可以同时用于智能推荐数据标准映射关系与字段的分类分级打标结果。特征扫描配置将同时影响标准模块的落标映射规则与安全模块的识别规则运行,请结合两个模块的使用场景合理配置,以减少语义冲突、资源浪费等问题的产生。

权限说明

超级管理员、数据标准管理员、安全管理员和具有识别特征管理权限的自定义全局角色支持新建及管理识别特征。

添加识别特征

  1. 在Dataphin首页,在顶部菜单栏选择治理 > 数据安全

  2. 在左侧导航栏选择通用配置 > 识别特征,在识别特征页面,单击新建特征按钮。

  3. 添加特征对话框中,配置参数。

    参数

    描述

    特征名称

    请填写识别特征的名称,名称唯一,最多输入128字符。

    特征条件

    支持选择按内容扫描按字段名称扫描按字段描述扫描按数据类型扫描

    • 按内容扫描:根据采样读取目标字段数据内容进行识别和判断。

      • 正则(大小兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为.*test.*,同时进行扫描结果的大小写兼容处理。

      • 正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为.*test.*

      • 识别阈值:只有内容匹配率超过识别阈值,该规则才会被认为是有效识别,进入该字段的识别结果中进行比较。

    • 按字段名称扫描:根据元数据中的字段名称进行扫描判断。

      • 正则(大小兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为.*test.*,同时进行扫描结果的大小写兼容处理。

      • 正则表达式:在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为.*test.*

      • 包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。

    • 按字段描述扫描:根据元数据中的字段描述进行扫描判断。

      • 正则(大小兼容):在输入框中输入正则表达式。例如,如果您需要匹配所有名称中带有test,则正则表达式定义为.*test.*,同时进行扫描结果的大小写兼容处理。

      • 正则表达式:在输入框中输入正则表达式。例如您需要匹配所有名称中带有test,则正则表达式定义为.*test.*

      • 包含/不包含:关键词匹配,如匹配用户信息表,输入user_info。

    • 按数据类型扫描:根据元数据中的字段的数据类型进行扫描判断。扫描条件支持等于,可选择的数据类型包括tinyint、smallint、mediumint、int、bigint、decimal、bit、date、datetime、timestamp、varchar、text、json。

    说明
    • 至少配置一条规则。如需添加规则,请单击+添加规则按钮。

    • 最多配置5条规则,且最多配置2层关系。

    • 过滤条件之间的关系可配置为且、或。

  4. 单击确定,完成识别特征添加。

查看识别特征

识别特征添加后,您可以在识别特征页面查看配置的信息及进行编辑、删除等操作。

image

区域

描述

筛选及搜索区

您可以根据识别特征的名称进行模糊搜索,也可以根据识别特征来源进行精确筛选。

识别特征列表

为您展示识别特征的名称、类型、最近更新人、最近更新时间信息。同时,您可以对自定义的识别特征执行查看、编辑、克隆、删除操作;系统内置识别特征执行查看、克隆操作。

  • 查看:可查看识别特征的信息。

  • 编辑:支持修改自定义识别特征的内容,修改后,引用当前识别特征的相关识别任务会同步更新,请及时同步相关业务人员。

  • 克隆:支持快速复制识别特征的信息。

  • 删除:支持删除自定义识别特征,删除后,当前识别特征会从已经引用的相关识别任务中自动删除,请谨慎操作。

后续步骤

  • 识别特征配置完成后,您可以在创建数据分类时关联识别特征,用于智能推荐字段分类分级的打标结果。详情请参见新建及管理数据分类

  • 在识别规则扫描及血缘自动继承扫描过程中根据定义的特征自动推荐分类分级。详情请参见新建及管理识别规则