内容安全默认依据阿里巴巴全局风险文本库为您提供检测服务,可以满足大部分的常规检测需求。为了使检测结果更贴合您的实际业务,内容安全也支持自定义文本库。您可以使用自定义文本库来管理需要针对性地拦截、放行(忽略)、人工审核的文本,应对突发的管控需求。
背景信息
注意 如果您不清楚如何使用该功能,请通过工单咨询我们。不建议您随意添加关键词,因为可能导致误抓,使检测效果无法得到保障。
自定义文本库包括系统回流文本库和用户创建文本库。
- 系统回流文本库由您的自助审核记录自动生成,默认应用于所有同类场景的检测。您可以管理系统回流文本库中的文本,不可以操作系统回流文本库,例如停用或删除文本库。关于自助审核,请参见自助审核。
- 用户创建文本库由您自行添加,可用于某次检测或某类检测场景。您可以管理用户创建文本库中的文本,也可以操作用户创建文本库。
说明 您可以创建10个自定义文本库(不含系统回流文本库)。
内容检测API、站点检测均支持自定义文本库。在内容检测API中,自定义文本库适用于以下场景:图片审核(图文违规识别)、文本反垃圾、文件反垃圾、语音反垃圾。
下文介绍了在内容安全控制台管理内容检测API自定义文本库的操作方法。除了控制台操作,您还可以通过API接口或SDK完成相关操作,具体请参见以下文档:
文本类型
自定义文本库的文本类型包括关键词和相似文本。
- 关键词
关键词是针对短小词语进行防控的一种方式。您可以将其理解为:一句话或者一段文本里面是否包含某个既定词语,当包含该词语时,则表明命中该关键词。不同的业务场景支持配置不同的关键词。
在内容安全的识别中,关键词技术可以被应用到图文违规、文本反垃圾、语音反垃圾场景中,具体配置见对应场景中的使用描述(配置参数可能略有出入)。
中文关键词支持“与(&)”、“非(~)”的逻辑判断属性。示例:- 定义“A&B”,则只有在句子中同时出现“A”和“B”时,才会命中。
- 定义“A~B”,则只有在句子中只出现“A”且不出现“B”时才会命中,同时出现“A”和“B”则不会命中。
说明 与(&)必须在非(~)之前。例如,您可以设置“A&B~C”作为关键词,但不能设置“A~C&B”作为关键词。 - 相似文本
相似文本是针对句子或者段落式文本进行相似性判断的一种方式。您可以将其理解为:两句话或者两段文本,从句意上具有非常强的相似性,但又不是百分百一样,局部可能有变化,整体上却具有相同的意思或者在描述同一件事情。通过既定或者参照的文本样本,可以判断要识别的文本是否与样本具有强相似性。当相似性的概率在一定程度上时,则表明命中样本。
相似文本文本库适用于文本反垃圾的检测场景。通过定义自己业务的相似文本库黑名单、白名单、疑似名单(疑似名单是指业务上需要识别出来,且需要人工审核),并在相似文本库里面维护与您业务相关的文本样本,从而指导文本反垃圾识别去过滤命中相似文本样本的内容。
使用限制
类型 | 项目 | 限制 |
---|---|---|
文本库 | 库个数 | 不超过10个(不含系统回流文本库) |
文本库 | 库名长度 | 不超过20个字符 |
关键词 | 关键词类型 |
|
关键词 | 单个文本库中关键词个数 | 不超过10000个 |
关键词 | 关键词最大长度 | 50个字符(包括符号) |
关键词 | 中文关键词编码类型 | UTF-8 |
关键词 | 关键词格式 | 不允许包含以下特殊字符(包括全角):
@ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab键 |
相似文本 | 相似文本长度 | 10~4000个字符
说明 如果添加的文本过长,容易引起文本误抓。建议文本长度不要超过200个字符,具体情况可提工单咨询。
|
相似文本 | 单个文本库中相似文本个数 | 不超过10000个 |
相似文本 | 文本编码格式 | UTF-8 |
相似文本 | 相似文本内容 | 文本样本需要包含明确的可提取的中文语义特征。如果经过引擎分析特征数太少,该文本样本将不会生效,引擎将其直接忽略。
说明 如果一段样本都是无意义的字母数字,或各种表情符等,则可能被忽略。
|
管理系统回流文本库
说明 系统回流文本库的文本类型均是相似文本,不支持关键词。以下内容同样适用于管理相似文本类型的自定义文本库。
在文档使用中是否遇到以下问题
更多建议
匿名提交