面向百炼大模型用户的文本审核服务

本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。

基于模型匹配策略

当您在百炼控制台开通内容安全产品的SLR授权后,并在调用百炼的header中传入cip标识时,我们会根据您的模型版本自动匹配服务于该模型的内容安全服务,具体匹配逻辑如下:

服务名称

service

适用模型范围

特性说明

百炼文字输入检测_pro

bailian_query_check_pro

Qwen-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼文字输出检测_pro

bailian_response_check_pro

Qwen-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼文字输入检测

bailian_query_check

(非Qwen-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。

百炼文字输出检测

bailian_response_check

(非Qwen-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。

计费说明

按token数量后付费

当您在百炼控制台开通内容安全产品的SLR授权,并通过百炼配置使用内容安全产品策略,产生实际用量时,付费方式是按token数量后付费,且按照实际用量结算当日费用,不调用服务不收费。

审核类型

支持的服务

计费单价

文本审核按token计费通用(text_token_standard)

  • 百炼文字输入检测bailian_query_check

  • 百炼文字输出检测bailian_response_check

0.0004 元/千Token

文本审核按token计费高级(text_token_advanced)

  • 百炼文字输入检测_probailian_query_check_pro

  • 百炼文字输出检测_probailian_response_check_pro

0.003 元/千Token

重要

在百炼平台进行单次query/response检测时,如果文本的token数量不足1000个,我们将按照1000个token的标准进行计费。若文本的token数量超过1000个,则将根据实际的token数量来计算费用。

风险标签

标签含义

您可以在API违规检测增强版 > 文本审核 > 规则配置 > 规则管理页签,单击查看标签获取每个服务支持的标签及其细分检测范围信息。以下是风险标签值、对应的分值区间以及对应的含义:

标签值(label)

置信分区间(confidence)

中文含义

pornographic_adult

0~100分,分数越高置信度越高

疑似色情内容

sexual_terms

0~100分,分数越高置信度越高

疑似性健康内容

sexual_prompts

0~100分,分数越高置信度越高

疑似诱导生成色情内容

sexual_suggestive

0~100分,分数越高置信度越高

疑似低俗内容

political_figure

0~100分,分数越高置信度越高

疑似政治人物

political_entity

0~100分,分数越高置信度越高

疑似政治实体

political_n

0~100分,分数越高置信度越高

疑似敏感政治内容

political_p

0~100分,分数越高置信度越高

疑似涉政禁宣人物

political_prompts

0~100分,分数越高置信度越高

疑似诱导生成涉政内容

political_a

0~100分,分数越高置信度越高

涉政专项升级保障

violent_extremist

0~100分,分数越高置信度越高

疑似极端组织

violent_incidents

0~100分,分数越高置信度越高

疑似极端主义内容

violent_weapons

0~100分,分数越高置信度越高

疑似武器弹药

violent_prompts

0~100分,分数越高置信度越高

疑似诱导生成暴力内容

contraband_drug

0~100分,分数越高置信度越高

疑似毒品相关

contraband_gambling

0~100分,分数越高置信度越高

疑似赌博相关

contraband_act

0~100分,分数越高置信度越高

疑似违禁行为

contraband_entity

0~100分,分数越高置信度越高

疑似违禁工具

inappropriate_discrimination

0~100分,分数越高置信度越高

疑似偏见歧视内容

inappropriate_ethics

0~100分,分数越高置信度越高

疑似不良价值观内容

inappropriate_profanity

0~100分,分数越高置信度越高

疑似攻击辱骂内容

inappropriate_oral

0~100分,分数越高置信度越高

疑似低俗口头语内容

inappropriate_superstition

0~100分,分数越高置信度越高

疑似封建迷信内容

inappropriate_nonsense

0~100分,分数越高置信度越高

疑似无意义灌水内容

pt_to_sites

0~100分,分数越高置信度越高

疑似站外引流

pt_by_recruitment

0~100分,分数越高置信度越高

疑似网赚兼职广告

pt_to_contact

0~100分,分数越高置信度越高

疑似引流广告号

religion_b

0~100分,分数越高置信度越高

疑似涉及佛教

religion_t

0~100分,分数越高置信度越高

疑似涉及道教

religion_c

0~100分,分数越高置信度越高

疑似涉及基督教

religion_i

0~100分,分数越高置信度越高

疑似涉及伊斯兰教

religion_h

0~100分,分数越高置信度越高

疑似涉及印度教

customized

0~100分,分数越高置信度越高

命中自定义词库

管理标签

除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见内容安全控制台

  1. 在左侧导航栏,选择API违规检测增强版>文本审核>规则配置

  2. 规则管理页签,以百炼文字输入检测(bailian_query_check)为例,单击操作管理检测规则

    1. 选择需要调整的检测类型,以不良内容检测为例。

    2. 单击编辑进入编辑模式,修改对应检测状态。

    3. 单击保存,保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。

步骤一:开通服务

在正式使用文本审核增强版功能之前,需要先开通服务。

  1. 访问内容审核增强版页面,仔细阅读并选中服务协议。

  2. 单击立即开通

步骤二:自定义审核规则(可选)

文本审核增强版为您内置了一套文本审核的标签,可满足您大部分文本内容的审核。

如果您需要定制私有化的审核规则,可以通过如下步骤创建词库,设置有风险的违规关键词或者在检测文本前需要过滤掉的关键词,然后配置匹配关键词的检测规则。

  1. 登录内容安全控制台

  2. API违规检测增强版 > 文本审核 > 词库管理页面,按照如下步骤配置词库。

    1. 关键词库管理页签,单击创建词库

    2. 创建词库面板,按要求填写词库信息。

      1、支持多个关键词通过与或非逻辑组合成一个关键词,如关键词“微信&兼职”表示只有同时出现以上两个词时才命中,“&”表示与关系,“~”表示非(排除)关系,配置关键词时“&”必须在“~”之前。

      2、每个关键词以换行来分隔,单个词不超过50字。

      3、最多 1000 行,如需一次增加超过 1000 行,请使用上传文件导入。

      4、同一个账号下总共支持添加 10万个词,最多可创建 20个词库。

    3. 单击创建词库

      如果词库创建失败,会有具体的提示信息,您可以根据提示重新创建。

  3. 配置规则。

    1. API违规检测增强版 > 文本审核 > 规则配置 > 规则管理页签,选择目标服务,单击右侧操作设置词库

    2. 选择用于忽略的词库。然后单击下一步

      忽略词库的任何一个关键词只要与待审核文本匹配成功后,先进行忽略再检测。该场景主要对一些关键词加入白名单,不需要检测。

      例如,设置的忽略词库中的关键词为方便快捷。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么方便快捷先被忽略掉,只对本校小额贷款,安全、无抵押,随机随贷,当天放款,上门服务进行文本风险检测。

    3. 选择用于命中的词库,然后单击确定

      命中词库的任何一个关键词只要与待审核文本匹配成功后,使用API调用文本审核增强版时labels会返回C_customized(用户库命中,表示命中您创建的词库)。该场景主要是检测待审核文本中是否存在违规风险。

      例如,设置的命中词库中的关键词为小额贷款上门服务。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么进行文本风险检测时,会匹配到小额贷款上门服务关键词。使用API调用文本审核增强版时返回参数labels的值除了返回内置的标签外(如果匹配到会返回,否则不返回),还会返回C_customized

    规则配置完成后,会在3分钟后生效,请您耐心等待。

步骤三:查看审核结果(可选)

你可以通过查看审核的结果,分析审核文本中高频的违规类型。

  1. API违规检测增强版 > 文本审核 > 结果查询页签页面,查看审核的文本、命中的标签及请求时间。

    您可以设置查询时间范围、百炼请求ID、文本、标签搜索待查询的信息。支持查询30天以内的数据,结果查询页面最多可以保存5万条数据,如果您有更高的存储需求,在调用API后需要您自行保存返回结果。

    按照标签搜索查询信息时,标签的筛选方式如下:

    • 包含:表示返回结果标签中包含输入的标签值。

    • 不包含:表示返回结果标签中不包含输入的标签值。

    • 空:表示返回结果没有命中任何标签。

    • 非空:表示返回结果命中了任意标签的(无需输入标签值)。

  2. 不会对未被检测出有风险的内容片段进行具体展示。

  3. 定位到某条文本内容,单击操作查看。查看该条文本内容被审核的详细信息。

    如果您对审核结果有异议,可以在指定文本操作反馈下拉框中提交未违规误报违规漏过的反馈。