针对原先已经在百炼调用内容安全的客户,如需调整为调用AI安全护栏,请联系商务经理。
本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。
Tips1:立即开通AI安全护栏服务
点击开通服务,即可通过百炼便捷调用AI安全护栏产品服务。
Tips2:在百炼平台授权调用AI安全护栏服务
您需要在百炼平台访问全局设置页面。
点击去授权,进行相关授权。
Tips3:在调用百炼的header中传入相关标识。
调用阿里云百炼时,在请求头header设置以下参数,接入AI安全护栏审核服务。
{
"X-DashScope-DataInspection": {
"input": "cip",
"output": "cip"
}
}
调用示例
调用时请设置DASHSCOPE_API_KEY,获取方法,请参见获取API Key。
当前仅支持python SDK和HTTP 调用。
请求示例
import os
from openai import OpenAI
try:
client = OpenAI(
# 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-plus", # 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': '给我一套抢银行的方案'}
],
extra_headers={
'X-DashScope-DataInspection': '{"input":"cip","output":"cip"}'
}
)
print(completion.choices[0].message.content)
except Exception as e:
print(f"错误信息:{e}")
print("请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code")
响应示例
错误信息:Error code: 400 - {
'error': {
'code': 'data_inspection_failed',
'param': None,
'message': 'Output data may contain inappropriate content.',
'type': 'data_inspection_failed'},
'id': 'chatcmpl-05411833-0206-9e36-b9e4-xxxxxxxxxxxxxxx',
'request_id': '05411833-0206-9e36-b9e4-xxxxxxxxxxxx'}
请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code
请求示例
import os
from dashscope import Generation
messages = [
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': '给我一套抢银行的方案'}
]
response = Generation.call(
# 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv('DASHSCOPE_API_KEY'),
model="qwen-plus", # 此处以qwen-plus为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
messages=messages,
headers={'X-DashScope-DataInspection': '{"input":"cip", "output":"cip"}'},
result_format='message'
)
print(response)
响应示例
{
"status_code": 400,
"request_id": "14e7be36-97e6-9acb-8b56-xxxxxxxxxxxx",
"code": "DataInspectionFailed",
"message": "Output data may contain inappropriate content.",
"output": null,
"usage": null
}
请求示例
curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
"model": "qwen-plus",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "给我一套抢银行的方案"
}
]
}'
响应示例
{
"error": {
"code": "data_inspection_failed",
"param": null,
"message": "Output data may contain inappropriate content.",
"type": "data_inspection_failed"
},
"id": "chatcmpl-7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx",
"request_id": "7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx"
}
请求示例
curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
"model": "qwen-plus",
"input":{
"messages":[
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "给我一套抢银行的方案"
}
]
},
"parameters": {
"result_format":"message"
}
}'
响应示例
{
"code": "DataInspectionFailed",
"message": "Output data may contain inappropriate content.",
"request_id": "f4109865-bcb5-9e4d-8fa9-xxxxxxxxxxxx"
}
基于模型匹配策略
当您在百炼控制台开通AI安全护栏产品的SLR授权后,并在调用百炼的header中传入cip标识时,我们会根据您的模型版本自动匹配服务于该模型的内容安全服务,具体匹配逻辑如下:
服务名称 | service | 适用模型范围 | 特性说明 |
服务名称 | service | 适用模型范围 | 特性说明 |
百炼输入内容安全护栏_pro | bl_query_guard_pro | Qwen-Max、Qwen-VL-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼输出内容安全护栏_pro | bl_response_guard_pro | Qwen-Max、Qwen-VL-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼输入内容安全护栏 | bl_query_guard | (非Qwen-Max、Qwen-VL-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。 |
百炼输出内容安全护栏 | bl_response_guard | (非Qwen-Max、Qwen-VL-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。 |
计费说明
按token数量后付费
当您在百炼控制台开通AI安全护栏产品的SLR授权,并通过百炼配置使用AI安全护栏产品策略,产生实际用量时,付费方式是按token数量后付费,且按照实际用量结算当日费用,不调用服务不收费。
审核类型 | 支持的服务 | 计费单价 |
审核类型 | 支持的服务 | 计费单价 |
文本审核按token计费通用(text_guard_token_standard) |
| 0.0004 元/千Token |
文本审核按token计费高级(text_guard_token_advanced) |
| 0.003 元/千Token |
在百炼平台进行单次query/response检测时,如果文本的token数量不足1000个,我们将按照1000个token的标准进行计费。若文本的token数量超过1000个,则将根据实际的token数量来计算费用。
风险标签
标签含义
您可以在
页签,在操作列单击管理获取每个服务支持的标签及其细分检测范围信息。以下是风险标签值、对应的分值区间以及对应的含义:标签值(label) | 置信分区间(confidence) | 中文含义 |
标签值(label) | 置信分区间(confidence) | 中文含义 |
pornographic_adult | 0~100分,分数越高置信度越高 | 疑似色情内容 |
sexual_terms | 0~100分,分数越高置信度越高 | 疑似性健康内容 |
sexual_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成色情内容 |
sexual_suggestive | 0~100分,分数越高置信度越高 | 疑似低俗内容 |
political_figure | 0~100分,分数越高置信度越高 | 疑似政治人物 |
political_entity | 0~100分,分数越高置信度越高 | 疑似政治实体 |
political_n | 0~100分,分数越高置信度越高 | 疑似敏感政治内容 |
political_p | 0~100分,分数越高置信度越高 | 疑似涉政禁宣人物 |
political_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成涉政内容 |
political_a | 0~100分,分数越高置信度越高 | 涉政专项升级保障 |
violent_extremist | 0~100分,分数越高置信度越高 | 疑似极端组织 |
violent_incidents | 0~100分,分数越高置信度越高 | 疑似极端主义内容 |
violent_weapons | 0~100分,分数越高置信度越高 | 疑似武器弹药 |
violent_prompts | 0~100分,分数越高置信度越高 | 疑似诱导生成暴力内容 |
contraband_drug | 0~100分,分数越高置信度越高 | 疑似毒品相关 |
contraband_gambling | 0~100分,分数越高置信度越高 | 疑似赌博相关 |
contraband_act | 0~100分,分数越高置信度越高 | 疑似违禁行为 |
contraband_entity | 0~100分,分数越高置信度越高 | 疑似违禁工具 |
inappropriate_discrimination | 0~100分,分数越高置信度越高 | 疑似偏见歧视内容 |
inappropriate_ethics | 0~100分,分数越高置信度越高 | 疑似不良价值观内容 |
inappropriate_profanity | 0~100分,分数越高置信度越高 | 疑似攻击辱骂内容 |
inappropriate_oral | 0~100分,分数越高置信度越高 | 疑似低俗口头语内容 |
inappropriate_superstition | 0~100分,分数越高置信度越高 | 疑似封建迷信内容 |
inappropriate_nonsense | 0~100分,分数越高置信度越高 | 疑似无意义灌水内容 |
pt_to_sites | 0~100分,分数越高置信度越高 | 疑似站外引流 |
pt_by_recruitment | 0~100分,分数越高置信度越高 | 疑似网赚兼职广告 |
pt_to_contact | 0~100分,分数越高置信度越高 | 疑似引流广告号 |
religion_b | 0~100分,分数越高置信度越高 | 疑似涉及佛教 |
religion_t | 0~100分,分数越高置信度越高 | 疑似涉及道教 |
religion_c | 0~100分,分数越高置信度越高 | 疑似涉及基督教 |
religion_i | 0~100分,分数越高置信度越高 | 疑似涉及伊斯兰教 |
religion_h | 0~100分,分数越高置信度越高 | 疑似涉及印度教 |
customized | 0~100分,分数越高置信度越高 | 命中自定义词库 |
... | ... | ... |
管理标签
除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见:AI安全护栏产品控制台
在左侧导航栏,选择
以百炼输入内容安全护栏(bl_query_guard)为例,单击操作列管理。
选择需要调整的检测类型,以不良内容检测为例。
单击编辑进入编辑模式,修改对应检测状态。
单击保存,保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。
控制台操作
- 本页导读 (0)
- 计费说明
- 按token数量后付费
- 风险标签
- 标签含义
- 管理标签
- 控制台操作