质检敏感词管理

敏感词通常指带有政治性、煽动性、暴力倾向、不健康色彩的词、不文明的词语或违法违规的词语。

内容中台支持对入库的内容进行敏感词检测,有针对性地筛查和屏蔽,确保 App 线上发布内容的合规性和有效性。支持敏感词表管理,配合敏感词模型使用。若上传的内容含敏感词,则会命中敏感词模型进入质检队列,并在人工质检操作页面高亮展示敏感词,高效辅助质检员完成质检判断。

系统会预置一些通用的敏感词表,同时也支持自定义上传、修改敏感词。

本文介绍如何创建敏感词表及管理敏感词。

创建敏感词表

  1. 登录 mPaaS 控制台,从左侧导航栏进入 内容中台 > 质检敏感词管理 页面。

  2. 单击 创建敏感词表,在创建面板中设置词表信息并添加敏感词。

    • 词表名称:自定义敏感词表的名称,应用内保持唯一。

    • 词表描述:对该词表包含的敏感词进行简要的描述。

    • 敏感词信息:支持手动输入敏感词,或通过文件导入的方式批量上传敏感词。

      • 手动输入:在输入框中输入敏感词,按回车键(Enter)后,继续添加。

      • 文件导入:仅支持导入 .txt 格式的文件,文件大小不超过 50 MB。文件中每条记录占一行,词语长度需小于 100 字符,超过 100 字符时,将不予以导入。重复条目只导入一次。

  3. 敏感词添加完毕后,单击 确定 完成敏感词表创建。新建的敏感词表将展示在词表列表上方,默认不启用,即未应用到敏感词模型中去。

启用/停用敏感词表

在词表列表中,选择未启用的目标敏感词表,单击操作列下的 启用 菜单,使该词表生效。如无需使用该词表,单击 停用 菜单即可。

一旦启用,敏感词表将配合敏感词模型对入库内容进行敏感词质检。

编辑敏感词表

在词表列表中,选择要修改的敏感词表,单击操作列下的 编辑 菜单,修改词表基本信息,添加或删除敏感词。

已启用的敏感词表不支持编辑,需要先停用后方可修改。

删除敏感词表

在词表列表中,选择要删除的敏感词表,单击操作列下的 删除 菜单即可。

二次扫描

背景

敏感词表的启动和停用,仅会影响尚未通过机器质检的内容;对于已经通过了质检的内容和评论(无论是否已发布到线上),都不会受到敏感词表启用和停用的影响。

因此,需要单独开辟一个敏感词全量扫描质检的功能,使得遇到突发舆情事件时,可针对敏感词实现对 质检已通过 的内容和评论的再次扫描质检。

页面流程

  1. 登录 mPaaS 控制台,从左侧导航栏进入 内容中台 > 质检敏感词管理 页面。

  2. 点击 二次扫描 按钮,对处于上述状态的内容及评论进行全量敏感词再次扫描,扫描完成后导出.csv文件,给后续处理提供依据。

  • 质检已通过的内容包含两种状态:已发布、已上线。

  • 质检已通过的评论的状态为:正常

导出的.csv文件分为三个 sheet,分别是视频、图文、评论的扫描结果。每个 sheet 中包含以下字段:

内容 id/评论 id、命中敏感词(可包含多个,当存在多个时用英文逗号分隔)、内容状态/评论状态。