内容安全默认依据阿里巴巴全局风险文本库为您提供检测服务,可以满足大部分的常规检测需求。为了使检测结果更贴合您的实际业务,内容安全也支持自定义文本库。您可以使用自定义文本库来管理需要针对性地拦截、放行(忽略)、人工审核的文本,应对突发的管控需求。

背景信息

注意 如果您不清楚如何使用该功能,请通过工单咨询我们。不建议您随意添加关键词,因为可能导致误抓,使检测效果无法得到保障。
自定义文本库包括系统回流文本库和用户创建文本库。
  • 系统回流文本库由您的自助审核记录自动生成,默认应用于所有同类使用场景的检测。您可以管理系统回流文本库中的文本,不可以操作系统回流文本库,例如停用或删除文本库。
  • 用户创建文本库由您自行添加,可用于某次检测或某类检测场景。您可以管理用户创建文本库中的文本,也可以操作用户创建文本库。
说明 您可以创建10个自定义文本库(不含系统回流文本库)。

内容检测API、站点检测均支持自定义文本库。在内容检测API中,自定义文本库适用于以下场景:图片审核(图文违规识别)、文本反垃圾、文件反垃圾、语音反垃圾。

下文介绍了在内容安全控制台管理内容检测API自定义文本库的操作方法。除了控制台操作,您还可以通过API接口或SDK完成相关操作,具体请参见以下内容。

文本类型

自定义文本库的文本类型包括关键词和相似文本。

  • 关键词

    关键词是针对短小词语进行防控的一种方式。您可以将其理解为:一句话或者一段文本里面是否包含某个既定词语;当包含该词语时,则表明命中该关键词。不同的业务场景支持配置不同的关键词。

    在内容安全的识别中,关键词技术可以被应用到图文违规、文本反垃圾、语音反垃圾场景中,具体配置见对应场景中的使用描述(配置参数可能略有出入)。

    中文关键词支持“与(&)”、“非(~)”的逻辑判断属性。例如:
    • 定义“A&B”,则只有在句子中同时出现“A”和“B”时,才会命中。
    • 定义“A~B”,则只有在句子中只出现“A”且不出现“B”时才会命中,同时出现“A”和“B”则不会命中。
    说明 与(&)必须在非(~)之前。例如,您可以设置“A&B~C”作为关键词,但不能设置“A~C&B”作为关键词。
  • 相似文本

    相似文本是针对句子或者段落式文本进行相似性判断的一种方式。您可以将其理解为:两句话或者两段文本,从句意上具有非常强的相似性,但又不是百分百一样;局部可能有变化,整体上却具有相同的意思或者在描述同一件事情。通过既定或者参照的文本样本,可以判断要识别的文本是否与样本具有强相似性。当相似性的概率在一定程度上时,则表明命中样本。

    相似文本文本库适用于文本反垃圾的检测场景。通过定义自己业务的相似文本库黑名单、白名单、疑似名单(疑似名单是指业务上需要识别出来,且需要人工审核),并在相似文本库里面维护与您业务相关的文本样本,从而指导文本反垃圾识别去过滤命中相似文本样本的内容。

使用限制

类型 项目 限制
文本库 库个数 不超过10个(不含系统回流文本库)
文本库 库名长度 不超过20个字符
关键词 关键词类型 仅支持中文关键词,支持用字母和数字作为关键词;暂不支持英文关键词。
说明 检测时,字母和数字会被当作整体进行分词。
关键词 单个文本库中关键词个数 不超过10000个
关键词 关键词最大长度 50个字符(包括符号)
关键词 中文关键词编码类型 UTF-8
关键词 关键词格式 不允许包含以下特殊字符(包括全角):@ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab键
相似文本 相似文本长度 10~4000个字符
说明 如果添加的文本过长,容易引起文本误抓。建议文本长度不要超过200个字符,具体情况可提工单咨询。
相似文本 单个文本库中相似文本个数 不超过10000个
相似文本 文本编码格式 UTF-8
相似文本 相似文本内容 文本样本需要包含明确的可提取的中文语义特征。如果经过引擎分析特征数太少,该文本样本将不会生效,引擎将其直接忽略。
说明 如果一段样本都是无意义的字母数字,或各种表情符等,则可能被忽略。

管理系统回流文本库

说明 系统回流文本库的文本类型均是相似文本,不支持关键词。以下内容同样适用于管理相似文本类型的自定义文本库。
  1. 登录云盾内容安全控制台
  2. 前往内容检测API > 风险库管理页面,并打开自定义文本库页签。
    自定义文本库页签下显示所有自定义文本库,其中系统回流文本库的名称前有系统标识,且按照“使用场景_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系统回流生成的用于文本反垃圾场景的黑名单文本库。系统回流文本库
  3. 定位到要操作的系统文本库,单击其操作列下的管理
    进入文本库管理页面。页面展示了所有已添加的相似文本样本和最近7天命中次数(不包括当天的命中数据)。文本库管理,相似文本
  4. 文本库管理页面,维护文本库内的相似文本样本。
    说明 在文本库中新增、删除相似文本,大约需要15分钟生效。
    • 单击新增文本导入,按照页面提示在文本库中增加相似文本。 新增文本,相似文本
    • 勾选不需要的相似文本,单击批量删除,删除相似文本;也可以单击不需要的相似文本下的删除,单独将其删除。

创建和管理自定义文本库

  1. 登录云盾内容安全控制台
  2. 前往内容检测API > 风险库管理页面,并打开自定义文本库页签。
  3. 单击创建文本库文本库,内容安全
  4. 创建自定义文本库对话框中,完成文本库配置,并单击确认。文本库的配置描述见下表。
    配置项 描述
    名称 为文本库命名。文本库名称允许重复,但建议您在业务中将其设置为唯一。
    使用场景 选择文本库的使用场景,取值:
    文本类型 选择文本库的文本类型,取值:
    • 关键词:使用关键词匹配,只要包含关键词就会命中,覆盖面大。
    • 相似文本:使用文本相似度匹配,只有整段文本相似才会命中,精确度高。
      说明 只在使用场景文本反垃圾时支持。
    匹配方式 文本类型关键词时,选择文本库的匹配方式,取值:
    • 精确匹配:待检测文本中包括与库中的词完全一样的内容时才命中。
    • 模糊匹配:待检测文本以及关键词都会经过预处理,预处理后进行匹配。预处理的逻辑如下:
      • 字母大写统一转换为小写。例如,输入检测文本“bitCoin”,会命中关键词“bitcoin”。
      • 繁体中文统一转换为简体。例如,输入检测文本“中國”,会命中关键词“中国”。
      • 相似字转换。例如,输入检测文本“②”,会命中关键词“2”。
      说明 相似文本类型的文本库默认使用模糊匹配。
    识别结果 选择文本库的用途。
    • 文本类型关键词时,取值:
      • 黑名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。
      • 疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。
      • 忽略名单:不检测文本库中样本,机审结果返回正常(suggestion=pass)。
    • 文本类型相似文本时,取值:
      • 黑名单:若命中文本库中样本,则机审结果返回违规(suggestion=block)。
      • 疑似名单:若命中文本库中样本,则机审结果返回疑似(suggestion=review)。
      • 白名单:若命中文本库中样本,则机审结果返回正常(suggestion=pass)。
    BizType BizType允许您根据不同的业务需求配置并应用不同的文本库,例如使用BizType指定在某次检测中应用文本库。BizType生效逻辑如下:
    • 文本库设置BizType为“A”,且API检测请求中传递了BizType为“A”,则检测文本只会使用BizType为“A”的文本库(前提是文本库已开启)。
    • 其他情况下,检测文本均会使用所有已开启的文本库。

    请根据需要进行设置。建议您通过工单联系我们指导配置。

    创建自定义文本库
    成功创建文本库。您可以在文本库列表中看到新建的文本库。
  5. 可选: 若新建的文本库的文本类型是关键词,参照以下步骤管理关键词;若新建的文本库的文本类型是相似文本,参见管理系统回流文本库 管理相似文本。
    1. 定位到要操作的关键词文本库,单击其操作列下的管理
      进入文本库管理页面。页面展示了所有已添加的关键词信息和最近7天命中次数(不包括当天的命中数据)。文本库管理,关键词
    2. 文本库管理页面,维护文本库内的关键词。
      说明 在文本库新增、删除关键词,大约需要15分钟生效。
      • 单击新增关键词导入,按照页面提示在文本库中增加关键词。新增文本,关键词
      • 勾选不需要的关键词,单击批量删除,删除关键词;也可以单击不需要的关键词下的删除,单独将其删除。
  6. 删除、修改、停用文本库。回到文本库列表,选择要操作的文本库,单击其操作列下删除修改停用可以分别删除目标文本库、修改文本库的配置、停用文本库。