为了使检测结果更贴合您的实际业务,内容安全支持自定义文本库。自定义文本库适用于图片审核(图文违规识别)、文本反垃圾、文件反垃圾、语音反垃圾场景。您可以使用自定义文本库来管理需要针对性地拦截、放行(忽略)、人工审核的文本,应对突发的管控需求。
背景信息
建议您在使用自定义文本库前,仔细阅读本文档,了解文本库使用方式。避免因关键词添加不当导致误抓,影响检测效果。
自定义文本库包括系统回流文本库和用户创建文本库。
系统回流文本库由您的自助审核记录自动生成,默认应用于所有同类场景的检测。您可以管理系统回流文本库中的文本,但是不可以对系统回流文本库进行停用或删除操作。关于自助审核,请参见自助审核。
用户创建文本库由您自行添加,可用于某次检测或某类检测场景。您可以管理用户创建文本库中的文本,也可以操作用户创建文本库。
您可以创建10个自定义文本库(不含系统回流文本库)。
下文介绍了在内容安全控制台管理内容检测API自定义文本库的操作方法。除了控制台操作,您还可以通过API接口或SDK完成相关操作,具体请参见以下文档:
文本类型
自定义文本库的文本类型包括关键词和相似文本。
关键词
关键词是针对短小词语进行防控的一种方式。您可以将其理解为:一句话或者一段文本里面是否包含某个既定词语,当包含该词语时,则表明命中该关键词。不同的业务场景支持配置不同的关键词。
在内容安全的识别中,关键词技术可以被应用到图文违规、文本反垃圾、语音反垃圾场景中,具体配置见对应场景中的使用描述(配置参数可能略有出入)。
中文关键词支持“与(&)”、“非(~)”的逻辑判断属性。示例:
定义“A&B”,则只有在句子中同时出现“A”和“B”时,才会命中。
定义“A~B”,则只有在句子中只出现“A”且不出现“B”时才会命中,同时出现“A”和“B”则不会命中。
说明与(&)必须在非(~)之前。例如,您可以设置“A&B~C”作为关键词,但不能设置“A~C&B”作为关键词。
相似文本
相似文本是针对句子或者段落式文本进行相似性判断的一种方式。您可以将其理解为:两句话或者两段文本,从句意上具有非常强的相似性,但又不是百分百一样,局部可能有变化,整体上却具有相同的意思或者在描述同一件事情。通过既定或者参照的文本样本,可以判断要识别的文本是否与样本具有强相似性。当相似性的概率在一定程度上时,则表明命中样本。
相似文本文本库适用于文本反垃圾的检测场景。通过定义自己业务的相似文本库黑名单、白名单、疑似名单(疑似名单是指业务上需要识别出来,且需要人工审核),并在相似文本库里面维护与您业务相关的文本样本,从而指导文本反垃圾识别去过滤命中相似文本样本的内容。
使用限制
类型 | 项目 | 限制 |
文本库 | 库个数 | 不超过10个(不含系统回流文本库)。 |
文本库 | 库名长度 | 不超过20个字符。 |
关键词 | 关键词类型 |
|
关键词 | 单个文本库中关键词个数 | 不超过10000个。 |
关键词 | 关键词最大长度 | 50个字符(包括符号)。 |
关键词 | 中文关键词编码类型 | UTF-8。 |
关键词 | 关键词格式 | 不允许包含以下特殊字符(包括全角): @ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab键 |
相似文本 | 相似文本长度 | 20~4000个字符。 说明 如果添加的文本过长,容易引起文本误抓。建议文本长度不要超过200个字符。 |
相似文本 | 单个文本库中相似文本个数 | 不超过10000个。 |
相似文本 | 文本编码格式 | UTF-8。 |
相似文本 | 相似文本内容 | 文本样本需要包含明确的可提取的中文语义特征。如果经过引擎分析特征数太少,该文本样本将不会生效,引擎将其直接忽略。 说明 如果一段样本都是无意义的字母数字,或各种表情符等,则可能被忽略。 |
操作步骤
登录内容安全控制台。
在左侧导航栏,选择 。
在自定义文本库页签单击创建文本库。
在创建自定义文本库对话框,请参考创建自定义文本库参数说明表完成文本库配置,并单击确定。
表 1. 创建自定义文本库参数说明表
参数
说明
名称
为文本库命名。文本库名称允许重复,但建议您在业务中将其设置为唯一。
使用场景
选择文本库的使用场景。取值:
文本类型
选择文本库的文本类型。取值:
关键词:使用关键词匹配,只要包含关键词就会命中,覆盖面大。
相似文本:使用文本相似度匹配,只有整段文本相似才会命中,精确度高。
说明只在使用场景为文本反垃圾时支持。
匹配方式
文本类型为关键词时,选择文本库的匹配方式。取值:
精确匹配:待检测文本中包括与库中的词完全一样的内容时才命中。
先转换再匹配:待检测文本以及关键词都会经过预处理,预处理后进行匹配。预处理的逻辑如下:
大写字母统一转换为小写字母。例如,输入检测文本“bitCoin”,会命中关键词“bitcoin”。
繁体中文统一转换为简体。例如,输入检测文本“中國”,会命中关键词“中国”。
相似字转换。例如,输入检测文本“②”,会命中关键词“2”。
说明相似文本类型的文本库默认使用先转换再匹配。
识别结果
选择文本库的用途。
文本类型为关键词时,取值:
风险名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。
疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。
忽略名单:不检测文本库中样本,但是会检测除了样本库以外的其他内容。
文本类型为相似文本时,取值:
风险名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。
疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。
可信名单:若命中文本库中样本,则机审结果返回正常(suggestion=pass)。
BizType
BizType允许您根据不同的业务需求配置并应用不同的文本库,例如使用BizType指定在某次检测中应用文本库。BizType生效逻辑如下:
文本库设置BizType为“A”,且API检测请求中传递了BizType为“A”,则检测文本只会使用BizType为“A”的文本库(前提是文本库已开启)。
其他情况下,检测文本均会使用所有已开启的文本库。
成功创建文本库后,您可以在文本库列表中查看新建的文本库。
管理文本库中的文本(关键词、相似文本)。
自定义文本库列表显示所有自定义文本库,其中系统回流文本库的名称前有系统标识,且按照“使用场景_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系统回流生成的用于文本反垃圾场景的黑名单文本库。
定位到要操作的关键词文本库,单击其操作列下的管理。
在文本库管理页面,维护文本库内的关键词。
文本库管理页面展示了所有已添加的关键词信息和最近7天命中次数(不包括当天的命中数据)。
说明在文本库新增、删除关键词,大约需要15分钟生效。
单击新增关键词或导入,按照页面提示在文本库中增加关键词。
选中不需要的关键词,单击批量删除,删除关键词。您也可以单击不需要的关键词下的删除,单独将其删除。
相关操作
对于自定义文本库(非系统回流文本库),您可通过自定义文本库页面中操作列的删除、修改和停用对目标文本库进行操作。