生成用于敏感数据识别的自定义模型-DataWorks-阿里云-大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

DataWorks支持通过您提供的样本字段，进行模型训练，帮助您寻找目标字段的内容特征，生成相应的规则模型。该功能通常用于发现您的数据资产中与该特征内容相似的数据。本文为您介绍如何生成自定义的数据识别模型。

使用限制

DataWorks不支持对数据量小于10条，数据长度小于4或大于40的样本字段进行模型训练，样本量最少为10条，最大不超过10000条。如果所选字段的总样本量超过10000条，系统将随机抽取10000条进行模型训练，不足10000条则以实际样本量进行模型训练。
DataWorks当前仅支持内容为数字、英文和特殊符号的数据模型训练，暂不支持对包含中文字符（包括中文标点符号）的样本字段进行模型训练。

创建模型

进入数据保护伞。
1. 登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据治理 > 安全中心，在右侧页面中单击进入安全中心。
2. 单击左侧导航栏的数据使用安全 > 敏感数据管理，单击立即体验，进入数据保护伞。
  说明
  - 若阿里云主账号已授权，则直接进入数据保护伞的首页。
  - 若阿里云主账号未授权，则进入数据保护伞的授权页面。进入数据使用安全 > 敏感数据管理，在页面弹窗内，首次需选择数据保护伞，授权后才可使用保护伞的相关功能。
在左侧导航栏单击规则配置 > 敏感数据识别，进入敏感数据识别页面。
新建模型并进行模型训练。
1. 在自生成数据识别模型页签单击新建模型。
2. 在新建模型对话框，配置模型名称并选择训练样本。
  - 正样本字段：您可从指定工作空间下，选择需要训练的样本字段，DataWorks将帮助您找到这些字段的内容特征，生成相应的规则模型。后续您可使用该规则模型发现您数据资产中与该模型的特征内容类似的数据。
    
    说明
    DataWorks不支持对数据量小于10条，数据长度小于4或大于40的样本字段进行模型训练，样本量最少为10条，最大不超过10000条。如果所选字段的总样本量超过10000条，系统将随机抽取10000条进行模型训练，不足10000条则以实际样本量进行模型训练。
    
    DataWorks当前仅支持内容为数字、英文和特殊符号的数据模型训练，暂不支持对包含中文字符（包括中文标点符号）的样本字段进行模型训练。
  - 负样本字段：为了模型更准确，您可以选择负样本字段，系统将以所选负样本字段的数据内容作为负样本训练模型；如您未选择负样本，系统会根据所选的正样本特征及数量，生成相应的负样本完成模型训练。
3. 单击下一步。
4. 勾选我接受数据保护伞抽样用于模型训练，单击开始训练，启动模型训练。
  
  本次模型训练将从您选的样本字段中各随机抽取不超过100条数据进行训练，并根据您的样本字段数量估算耗时。
  
  说明
  模型训练时间较长，请您等待。等待过程中，您也可以关闭训练弹窗，操作其他功能，模型将在后台自动运行训练。
查看模型训练结果。
在自生成数据识别模型页面，您可查看目标模型的训练状态及训练结果，并根据训练结果判断该模型是否符合上线使用标准，用于识别数据。
- 查看训练状态。
  - 剩余hh:mm:ss：表示当前模型正在训练中。
  - 训练完成：表示当前模型已完成训练，您可以根据训练结果，判断该模型后续是否可用于识别数据。
  - 草稿：表示该模型已创建，但未进行训练，不能投入识别数据。
- 查看训练结果。
  
  单击训练完成的模型操作列的图标，即可查看通过该模型提取的样本特征对样例数据识别的准确率。建议当准确率为100%时，再投入上线使用该模型。
  
  说明
  如果模型训练的评估结果准确率达不到100%，则投入上线使用识别的数据可能会有较大误差。建议您增加样本数据，重新训练模型，直至准确率达到100%后再投入上线使用。
  
  识别评估页面分为正样本和负样本两个区域，分别展示命中率、总量、命中量和未命中量。下方识别明细区域随机抽取 10 条样本数据展示各字段的识别结果（匹配或不匹配），可单击立即刷新查看其他随机样本。
单击确定创建，完成当前规则模型的创建。

后续步骤

成功创建规则模型后，您可以进入数据识别规则页面，上线使用当前模型来识别数据。在数据识别规则中使用自定义的模型识别数据，详情请参见配置数据识别规则并执行识别任务。