使用文本审核增强版识别文本违规风险

文本审核增强版服务通过升级内容安全核心引擎,采用动态策略和模型强化变异对抗性,提供多种业务场景的审核服务,识别出多种违规风险。本文介绍如何使用文本审核增强版。

功能特性

与文本检测1.0服务相比较,文本审核增强版服务支持更多的功能,并支持业务自定义规则,为您提供更全面的内容安全保障。

匹配业务场景

文本审核增强版服务支持匹配多种业务场景,为您简化业务接入和选择模型的工作,扩大合规风险覆盖的范围。您可根据需要的业务场景选择对应的服务。

服务名称

service

常用业务场景

场景特性说明

大语言模型输入文字检测

llm_query_moderation

大语言模型的用户输入内容

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,可支持对部分诱导性敏感话题的话术建议。具体参考面向大语言模型的文本审核plus服务

大语言模型生成文字检测

llm_response_moderation

大语言模型的AI合成内容

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,可支持对AI可能产生的辱骂、偏见、不良价值观信息进行部分检测。具体参考面向大语言模型的文本审核plus服务

用户昵称检测_专业版

nickname_detection_pro

用户昵称、公众号名称、直播间标题等

在用户昵称检测的基础上提供更细化标签且开放审核标签的开启和关闭功能。具体参考文本审核增强版PLUS服务

私聊互动内容检测_专业版

chat_detection_pro

用户间聊天互动

在私聊互动内容检测的基础上提供更细化标签且开放审核标签的开启和关闭功能。具体参考文本审核增强版PLUS服务

公聊评论内容检测_专业版

comment_detection_pro

评论、弹幕、公聊、转发等

在公聊评论内容检测的基础上提供更细化标签且开放审核标签的开启和关闭功能。具体参考文本审核增强版PLUS服务

用户昵称检测

nickname_detection

用户昵称、公众号名称、直播间标题等

侧重识别底线违规类(涉黄、涉政、涉暴等)、仿冒官方、禁限引流风险,可辅助治理虚假账号。

私聊互动内容检测

chat_detection

用户间聊天互动

在平衡用户体验基础上,主要识别底线违规类(涉黄、涉政、涉暴等)、辱骂网暴等风险。

公聊评论内容检测

comment_detection

评论、弹幕、公聊、转发等

通常风险率高、风险类型多、变形变异强,识别底线违规类(涉黄、涉政、涉暴等)、广告导流、禁限内容等风险。支持在决策引擎中接入使用,具体参考文本审核服务在决策引擎中的应用

PGC通用物料检测

pgc_detection

办公文档、课件内容、宣传资料等通用物料

适用于通常风险率低,需精确检测底线类风险(涉黄、涉政、涉暴等)的内容场景。

AIGC类文字检测

ai_art_detection

AI文生图的文字指令等

兼容中英文本,侧重识别底线违规类(涉黄、涉政、涉暴等)和负面内容。

广告法合规检测

ad_compliance_detection

商品素材、广告文案

识别疑似违反广告法规,包括极限词、行业禁限、红线违规(涉黄、涉政、涉暴等)等风险。

国际业务多语言检测

comment_multilingual_pro

国际化业务中的评论、聊天和昵称等

自动判断语种,支持38个语种类型,结合国际化业务特性的策略体系,具体参考文本审核增强版多语言服务

URL风险链接检测

url_detection

URL链接发布和分享,内置浏览器等

识别第三方URL链接是否存在欺诈、色情、赌博等风险,具体参考文本审核增强版检测URL风险

丰富审核标签

支持更丰富的审核标签,以及更详细的原因定位。如果内容存在多类风险,能够同时返回多个标签。您可以在API违规检测增强版 > 文本审核 > 规则配置 > 规则管理页签,单击查看标签获取每个服务支持的标签及其细分检测范围信息。

计费说明

文本审核增强版服务支持按量后付费和资源包抵扣两种付费方式。

按量后付费

当您开通文本审核增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。更多内容,请参见开通内容审核增强版服务

审核类型

支持的业务场景(服务)

计费单价

文本审核通用(text_standard)

  • 用户昵称检测_专业版:nickname_detection_pro

  • 私聊互动内容检测_专业版:chat_detection_pro

  • 公聊评论内容检测_专业版:comment_detection_pro

  • 用户昵称检测:nickname_detection

  • 私聊互动内容检测:chat_detection

  • 公聊评论内容检测:comment_detection

  • AIGC文字检测:ai_art_detection

  • 广告法合规检测:ad_compliance_detection

  • PGC教学物料检测:pgc_detection

  • URL风险链接检测:

url_detection

7.5元/万次

文本审核高级(text_advanced)

  • 大语言模型输入文字检测:llm_query_moderation

  • 大语言模型生成文字检测:llm_response_moderation

  • 国际业务多语言检测:

comment_multilingual_pro

15元/万次

资源包抵扣

如果您的审核量较大,或有相对固定的审核需求,建议预先购买资源包的方式。购买资源包规格越大,享受越低折扣,支持叠加购买和使用。更多内容,请参见购买内容审核增强版抵扣资源包

该资源包用于内容审核增强版用量的抵扣,无法与内容安全流量包共享,具体的抵扣系数如下:

审核类型

抵扣系数

文本审核通用(text_standard)

抵扣系数为1,表示每成功调用一次接口,抵扣资源包的流量包容量规格1次。

说明

例如购买的资源包的流量包容量规格为10次,当您成功调用1次接口,抵扣流量包容量规格1次,剩余9次。

文本审核高级(text_advanced)

抵扣系数为2,表示每成功调用一次接口,抵扣资源包的流量包容量规格2次。

说明

例如购买的资源包的流量包容量规格为10次,当您成功调用1次接口,抵扣流量包容量规格2次,剩余8次。

步骤一:开通服务

在正式使用文本审核增强版功能之前,需要先开通服务。

  1. 访问内容审核增强版页面,仔细阅读并选中服务协议。

  2. 单击立即开通

步骤二:自定义检测服务(可选)

文本审核增强版为您内置了多个检测服务,可满足您大部分业务场景使用。具体信息,请参见检测服务可匹配的业务场景

如果您需要定制私有化的检测服务,可以通过如下步骤复制内置的检测服务,调整检测范围,以满足业务差异化的审核需求。

  1. 登录内容安全控制台

  2. 在左侧导航栏,选择API违规检测增强版 > 文本审核 > 规则配置

  3. 规则管理页签,定位到要复制的服务,单击操作复制,输入服务名称服务说明

    复制成功后,复制服务和源服务的配置项一致,包括计费方式、可设置项以及自定义词库配置情况。您可以根据业务需求对调整复制服务的检测范围,满足业务差异化的审核需求。具体操作,请参见步骤三:自定义审核规则(可选)

步骤三:自定义审核规则(可选)

文本审核增强版为您内置了一套文本审核的标签,可满足您大部分文本内容的审核。具体信息,请参见丰富审核标签

如果您需要定制私有化的审核规则,可以通过如下步骤创建词库,设置有风险的违规关键词或者在检测文本前需要过滤掉的关键词,然后配置匹配关键词的检测规则。

  1. 登录内容安全控制台

  2. API违规检测增强版 > 文本审核 > 词库管理页面,按照如下步骤配置词库。

    1. 关键词库管理页签,单击创建词库

    2. 创建词库面板,按要求填写词库信息。

      1、支持多个关键词通过与或非逻辑组合成一个关键词,如关键词“微信&兼职”表示只有同时出现以上两个词时才命中,“&”表示与关系,“~”表示非(排除)关系,配置关键词时“&”必须在“~”之前。

      2、每个关键词以换行来分隔,单个词不超过50字。

      3、最多 1000 行,如需一次增加超过 1000 行,请使用上传文件导入。

      4、同一个账号下总共支持添加 10万个词,最多可创建 20个词库。

    3. 单击创建词库

      如果词库创建失败,会有具体的提示信息,您可以根据提示重新创建。

  3. 配置规则。

    1. API违规检测增强版 > 文本审核 > 规则配置 > 规则管理页签,选择目标服务,单击右侧操作设置词库

    2. 选择用于忽略的词库。然后单击下一步

      忽略词库的任何一个关键词只要与待审核文本匹配成功后,先进行忽略再检测。该场景主要对一些关键词加入白名单,不需要检测。

      例如,设置的忽略词库中的关键词为方便快捷。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么方便快捷先被忽略掉,只对本校小额贷款,安全、无抵押,随机随贷,当天放款,上门服务进行文本风险检测。

    3. 选择用于命中的词库,然后单击确定

      命中词库的任何一个关键词只要与待审核文本匹配成功后,使用API调用文本审核增强版时labels会返回C_customized(用户库命中,表示命中您创建的词库)。该场景主要是检测待审核文本中是否存在违规风险。

      例如,设置的命中词库中的关键词为小额贷款上门服务。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么进行文本风险检测时,会匹配到小额贷款上门服务关键词。使用API调用文本审核增强版时返回参数labels的值除了返回内置的标签外(如果匹配到会返回,否则不返回),还会返回C_customized

    规则配置完成后,会在3分钟后生效,请您耐心等待。

步骤四:接入文本审核增强版

目前,文本审核增强版支持以下两种接入方式。

针对大模型场景的内容审核,文本审核增强版可参考以下接入方式。

步骤五:查看审核结果(可选)

你可以通过查看审核的结果,分析审核文本中高频的违规类型。

  1. API违规检测增强版 > 文本审核 > 结果查询页签页面,查看审核的文本、命中的标签及请求时间。

    您可以设置查询时间范围、请求ID、文本、标签搜索待查询的信息。支持查询30天以内的数据,结果查询页面最多可以保存5万条数据,如果您有更高的存储需求,在调用API后需要您自行保存返回结果。

    按照标签搜索查询信息时,标签的筛选方式如下:

    • 包含:表示返回结果标签中包含输入的标签值。

    • 不包含:表示返回结果标签中不包含输入的标签值。

    • 空:表示返回结果没有命中任何标签。

    • 非空:表示返回结果命中了任意标签的(无需输入标签值)。

  2. 定位到某条文本内容,单击操作查看。查看该条文本内容被审核的详细信息。

    如果您对审核结果有异议,可以在指定文本操作反馈下拉框中提交未违规误报违规漏过的反馈。

步骤六:统计用量(可选)

统计调用量数据,帮助您了解当前阿里云账号(主账号)及其RAM用户(子账号)近期的文本审核增强版的调用量。

API违规检测增强版 > 文本审核 > 用量统计页签页面,查看文本审核的调用量。您可以自定义查询时间范围,支持最近的365天内的调用量。支持按阿里云账号及其RAM用户的维度查看调用量。

单击下载图标,下载用量统计数据。

image.png