DataWorks支持通过您提供的样本字段,进行模型训练,帮助您寻找目标字段的内容特征,生成相应的规则模型。该功能通常用于发现您的数据资产中与该特征内容相似的数据。本文为您介绍如何生成自定义的数据识别模型。
使用限制
- DataWorks不支持对数据量小于10条,并且数据长度小于4大于40的样本字段进行模型训练。
- DataWorks不支持对包含中文字符(包括中文标点符号)的样本字段进行模型训练。
创建模型
- 进入数据保护伞。
- 登录DataWorks控制台。
- 在左侧导航栏,单击工作空间列表。
- 选择工作空间所在地域后,单击相应工作空间后的进入数据开发。
- 单击左上方的
图标,选择 。
- 单击立即体验,进入数据保护伞。
- 在左侧导航栏,单击数据识别规则页面。 ,进入
- 单击自生成数据识别模型,进入自生成数据识别模型页面。
- 新建模型并进行模型训练。
- 查看模型训练结果。在自生成数据识别模型页面,您可以查看目标模型的训练状态及训练结果,并根据训练结果判断该模型是否符合上线使用标准,用于识别数据。
- 查看训练状态。
- 剩余hh:mm:ss:表示当前模型正在训练中。
- 训练完成:表示当前模型已完成训练,您可以根据训练结果,判断该模型后续是否可用于识别数据。
- 草稿:表示该模型已创建,但未进行训练,不能投入识别数据。
- 查看训练结果。单击完成训练的模型操作列的
图标,即可查看通过该模型提取的样本特征对样例数据识别的准确率。建议当准确率为100%时,再投入上线使用该模型。
说明 如果模型训练的评估结果准确率达不到100%,则投入上线使用识别的数据可能会有较大误差。建议您增加样本数据,重新训练模型,直至准确率达到100%后再投入上线使用。
- 查看训练状态。
- 单击确定创建,完成当前规则模型的创建。