通过自定义模型识别

DataWorks支持通过您提供的样本字段,进行模型训练,帮助您寻找目标字段的内容特征,生成相应的规则模型。该功能通常用于发现您的数据资产中与该特征内容相似的数据。本文为您介绍如何生成自定义的数据识别模型。

使用限制

  • DataWorks不支持对数据量小于10条,并且数据长度小于4大于40的样本字段进行模型训练。

  • DataWorks不支持对包含中文字符(包括中文标点符号)的样本字段进行模型训练。

创建模型

  1. 进入数据保护伞

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据开发与治理 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

    2. 单击左上方的图标图标,选择全部产品 > 数据治理 > 数据保护伞,单击立即体验,进入数据保护伞。

      说明
      • 若阿里云主账号已授权,则直接进入数据保护伞的首页。

      • 若阿里云主账号未授权,则进入数据保护伞的授权页面。授权后才可使用保护伞的相关功能。

  2. 在左侧导航栏单击规则配置 > 敏感数据识别,进入敏感数据识别页面。

  3. 新建模型并进行模型训练。

    1. 自生成数据识别模型页签单击新建模型

    2. 新建模型对话框,配置模型名称并选择训练样本。

      • 样本字段:您可从指定工作空间下,选择需要训练的样本字段,DataWorks将帮助您找到这些字段的内容特征,生成相应的规则模型。后续您可使用该规则模型发现您数据资产中与该模型的特征内容类似的数据。

        说明
        • DataWorks不支持对数据量小于10条,并且数据长度小于4大于40的样本字段进行模型训练。

        • DataWorks不支持对包含中文字符(包括中文标点符号)的样本字段进行模型训练。

      • 排除字段:如果某些字段容易与样本字段混淆,则您可在该规则模型中将其排除,排除后,使用该规则模型识别数据时,排除的字段将不会命中。同时,排除的字段将作为负向样本加入模型训练,以达到不命中混淆数据,提高识别准确率的效果。

    3. 单击下一步

    4. 勾选我接受数据保护伞抽样用于模型训练,单击开始训练,启动模型训练。

      本次模型训练将从您选的样本字段中各随机抽取不超过100条数据进行训练,并根据您的样本字段数量估算耗时。

      说明

      模型训练时间较长,请您等待。等待过程中,您也可以关闭训练弹窗,操作其他功能,模型将在后台自动运行训练。

  4. 查看模型训练结果。

    自生成数据识别模型页面,您可查看目标模型的训练状态及训练结果,并根据训练结果判断该模型是否符合上线使用标准,用于识别数据。查看模型训练结果

    • 查看训练状态。

      • 剩余hh:mm:ss:表示当前模型正在训练中。

      • 训练完成:表示当前模型已完成训练,您可以根据训练结果,判断该模型后续是否可用于识别数据。

      • 草稿:表示该模型已创建,但未进行训练,不能投入识别数据。

    • 查看训练结果。

      单击训练完成的模型操作列的编辑模型图标,即可查看通过该模型提取的样本特征对样例数据识别的准确率。建议当准确率为100%时,再投入上线使用该模型。

      说明

      如果模型训练的评估结果准确率达不到100%,则投入上线使用识别的数据可能会有较大误差。建议您增加样本数据,重新训练模型,直至准确率达到100%后再投入上线使用。

      查看模型识别结果

  5. 单击确定创建,完成当前规则模型的创建。

后续步骤

成功创建规则模型后,您可以进入数据识别规则页面,上线使用当前模型来识别数据。在数据识别规则中使用自定义的模型识别数据,详情请参见配置数据识别规则并执行识别任务