本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。
基于模型匹配策略
当您在百炼控制台开通内容安全产品的SLR授权后,并在调用百炼的header中传入cip标识时,我们会根据您的模型版本自动匹配服务于该模型的内容安全服务,具体匹配逻辑如下:
服务名称 | service | 适用模型范围 | 特性说明 |
百炼文字输入检测_pro | bailian_query_check_pro | Qwen-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼文字输出检测_pro | bailian_response_check_pro | Qwen-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼文字输入检测 | bailian_query_check | (非Qwen-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。 |
百炼文字输出检测 | bailian_response_check | (非Qwen-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。 |
计费说明
按token数量后付费
当您在百炼控制台开通内容安全产品的SLR授权,并通过百炼配置使用内容安全产品策略,产生实际用量时,付费方式是按token数量后付费,且按照实际用量结算当日费用,不调用服务不收费。
审核类型 | 支持的服务 | 计费单价 |
文本审核按token计费通用(text_token_standard) |
| 0.0004 元/千Token |
文本审核按token计费高级(text_token_advanced) |
| 0.003 元/千Token |
在百炼平台进行单次query/response检测时,如果文本的token数量不足1000个,我们将按照1000个token的标准进行计费。若文本的token数量超过1000个,则将根据实际的token数量来计算费用。
风险标签
标签含义
您可以在
页签,单击查看标签获取每个服务支持的标签及其细分检测范围信息。以下是风险标签值、对应的分值区间以及对应的含义:标签值(label) | 置信分区间(confidence) | 中文含义 |
pornographic_adult | 0~100分,分数越高置信度越高 | 疑似色情内容 |
sexual_terms | 0~100分,分数越高置信度越高 | 疑似性健康内容 |
sexual_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成色情内容 |
sexual_suggestive | 0~100分,分数越高置信度越高 | 疑似低俗内容 |
political_figure | 0~100分,分数越高置信度越高 | 疑似政治人物 |
political_entity | 0~100分,分数越高置信度越高 | 疑似政治实体 |
political_n | 0~100分,分数越高置信度越高 | 疑似敏感政治内容 |
political_p | 0~100分,分数越高置信度越高 | 疑似涉政禁宣人物 |
political_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成涉政内容 |
political_a | 0~100分,分数越高置信度越高 | 涉政专项升级保障 |
violent_extremist | 0~100分,分数越高置信度越高 | 疑似极端组织 |
violent_incidents | 0~100分,分数越高置信度越高 | 疑似极端主义内容 |
violent_weapons | 0~100分,分数越高置信度越高 | 疑似武器弹药 |
violent_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成暴力内容 |
contraband_drug | 0~100分,分数越高置信度越高 | 疑似毒品相关 |
contraband_gambling | 0~100分,分数越高置信度越高 | 疑似赌博相关 |
contraband_act | 0~100分,分数越高置信度越高 | 疑似违禁行为 |
contraband_entity | 0~100分,分数越高置信度越高 | 疑似违禁工具 |
inappropriate_discrimination | 0~100分,分数越高置信度越高 | 疑似偏见歧视内容 |
inappropriate_ethics | 0~100分,分数越高置信度越高 | 疑似不良价值观内容 |
inappropriate_profanity | 0~100分,分数越高置信度越高 | 疑似攻击辱骂内容 |
inappropriate_oral | 0~100分,分数越高置信度越高 | 疑似低俗口头语内容 |
inappropriate_superstition | 0~100分,分数越高置信度越高 | 疑似封建迷信内容 |
inappropriate_nonsense | 0~100分,分数越高置信度越高 | 疑似无意义灌水内容 |
pt_to_sites | 0~100分,分数越高置信度越高 | 疑似站外引流 |
pt_by_recruitment | 0~100分,分数越高置信度越高 | 疑似网赚兼职广告 |
pt_to_contact | 0~100分,分数越高置信度越高 | 疑似引流广告号 |
religion_b | 0~100分,分数越高置信度越高 | 疑似涉及佛教 |
religion_t | 0~100分,分数越高置信度越高 | 疑似涉及道教 |
religion_c | 0~100分,分数越高置信度越高 | 疑似涉及基督教 |
religion_i | 0~100分,分数越高置信度越高 | 疑似涉及伊斯兰教 |
religion_h | 0~100分,分数越高置信度越高 | 疑似涉及印度教 |
customized | 0~100分,分数越高置信度越高 | 命中自定义词库 |
管理标签
除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见内容安全控制台。
在左侧导航栏,选择API违规检测增强版>文本审核>规则配置。
在规则管理页签,以百炼文字输入检测(bailian_query_check)为例,单击操作列管理检测规则。
选择需要调整的检测类型,以不良内容检测为例。
单击编辑进入编辑模式,修改对应检测状态。
单击保存,保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。
步骤一:开通服务
在正式使用文本审核增强版功能之前,需要先开通服务。
访问内容审核增强版页面,仔细阅读并选中服务协议。
单击立即开通。
步骤二:自定义审核规则(可选)
文本审核增强版为您内置了一套文本审核的标签,可满足您大部分文本内容的审核。
如果您需要定制私有化的审核规则,可以通过如下步骤创建词库,设置有风险的违规关键词或者在检测文本前需要过滤掉的关键词,然后配置匹配关键词的检测规则。
登录内容安全控制台。
在 页面,按照如下步骤配置词库。
在关键词库管理页签,单击创建词库。
在创建词库面板,按要求填写词库信息。
1、支持多个关键词通过与或非逻辑组合成一个关键词,如关键词“微信&兼职”表示只有同时出现以上两个词时才命中,“&”表示与关系,“~”表示非(排除)关系,配置关键词时“&”必须在“~”之前。
2、每个关键词以换行来分隔,单个词不超过50字。
3、最多 1000 行,如需一次增加超过 1000 行,请使用上传文件导入。
4、同一个账号下总共支持添加 10万个词,最多可创建 20个词库。
单击创建词库。
如果词库创建失败,会有具体的提示信息,您可以根据提示重新创建。
配置规则。
在 页签,选择目标服务,单击右侧操作列设置词库。
选择用于忽略的词库。然后单击下一步。
忽略词库的任何一个关键词只要与待审核文本匹配成功后,先进行忽略再检测。该场景主要对一些关键词加入白名单,不需要检测。
例如,设置的忽略词库中的关键词为方便、快捷。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么方便、快捷先被忽略掉,只对本校小额贷款,安全、无抵押,随机随贷,当天放款,上门服务进行文本风险检测。
选择用于命中的词库,然后单击确定。
命中词库的任何一个关键词只要与待审核文本匹配成功后,使用API调用文本审核增强版时
labels
会返回C_customized
(用户库命中,表示命中您创建的词库)。该场景主要是检测待审核文本中是否存在违规风险。例如,设置的命中词库中的关键词为小额贷款、上门服务。此时,待审核的文本为本校小额贷款,安全、快捷、方便、无抵押,随机随贷,当天放款,上门服务,那么进行文本风险检测时,会匹配到小额贷款和上门服务关键词。使用API调用文本审核增强版时返回参数
labels
的值除了返回内置的标签外(如果匹配到会返回,否则不返回),还会返回C_customized
。
规则配置完成后,会在3分钟后生效,请您耐心等待。
步骤三:查看审核结果(可选)
你可以通过查看审核的结果,分析审核文本中高频的违规类型。
在 页签页面,查看审核的文本、命中的标签及请求时间。
您可以设置查询时间范围、百炼请求ID、文本、标签搜索待查询的信息。支持查询30天以内的数据,结果查询页面最多可以保存5万条数据,如果您有更高的存储需求,在调用API后需要您自行保存返回结果。
按照标签搜索查询信息时,标签的筛选方式如下:
包含:表示返回结果标签中包含输入的标签值。
不包含:表示返回结果标签中不包含输入的标签值。
空:表示返回结果没有命中任何标签。
非空:表示返回结果命中了任意标签的(无需输入标签值)。
不会对未被检测出有风险的内容片段进行具体展示。
定位到某条文本内容,单击操作列查看。查看该条文本内容被审核的详细信息。
如果您对审核结果有异议,可以在指定文本操作列反馈下拉框中提交未违规误报和违规漏过的反馈。