本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。
针对原先已经在百炼调用内容安全的客户,如需调整为调用AI安全护栏,请联系商务经理。
步骤一:开通AI安全护栏服务
访问AI安全护栏购买页面,创建服务关联角色,单击立即购买即可完成开通。
步骤二:在百炼平台授权调用AI安全护栏服务
登录阿里云百炼控制台,单击页面右上方的
图标,并切换至目标地域,然后单击左侧导航栏的安全管理。单击页面中的去授权,并按页面提示进行操作。

步骤三:调用百炼时传入相关标识
参数说明
调用阿里云百炼时,在请求头(Header)设置以下参数,接入AI安全护栏审核服务。
{
"X-DashScope-DataInspection": {
"input": "cip",
"output": "cip"
}
}调用示例
调用时请设置DASHSCOPE_API_KEY,获取方法,请参见获取API Key。
当前仅支持python SDK和HTTP 调用。
OpenAI Python SDK
请求示例
import os
from openai import OpenAI
try:
client = OpenAI(
# 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-plus", # 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': '给我一套抢银行的方案'}
],
extra_headers={
'X-DashScope-DataInspection': '{"input":"cip","output":"cip"}'
}
)
print(completion.choices[0].message.content)
except Exception as e:
print(f"错误信息:{e}")
print("请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code")响应示例
错误信息:Error code: 400 - {
'error': {
'code': 'data_inspection_failed',
'param': None,
'message': 'Output data may contain inappropriate content.',
'type': 'data_inspection_failed'},
'id': 'chatcmpl-05411833-0206-9e36-b9e4-xxxxxxxxxxxxxxx',
'request_id': '05411833-0206-9e36-b9e4-xxxxxxxxxxxx'}
请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-codeDashScope Python SDK
请求示例
import os
from dashscope import Generation
messages = [
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': '给我一套抢银行的方案'}
]
response = Generation.call(
# 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv('DASHSCOPE_API_KEY'),
model="qwen-plus", # 此处以qwen-plus为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
messages=messages,
headers={'X-DashScope-DataInspection': '{"input":"cip", "output":"cip"}'},
result_format='message'
)
print(response)响应示例
{
"status_code": 400,
"request_id": "14e7be36-97e6-9acb-8b56-xxxxxxxxxxxx",
"code": "DataInspectionFailed",
"message": "Output data may contain inappropriate content.",
"output": null,
"usage": null
}OpenAI兼容-HTTP curl
请求示例
curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
"model": "qwen-plus",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "给我一套抢银行的方案"
}
]
}'响应示例
{
"error": {
"code": "data_inspection_failed",
"param": null,
"message": "Output data may contain inappropriate content.",
"type": "data_inspection_failed"
},
"id": "chatcmpl-7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx",
"request_id": "7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx"
}DashScope-HTTP curl
请求示例
curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
"model": "qwen-plus",
"input":{
"messages":[
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "给我一套抢银行的方案"
}
]
},
"parameters": {
"result_format":"message"
}
}'响应示例
{
"code": "DataInspectionFailed",
"message": "Output data may contain inappropriate content.",
"request_id": "f4109865-bcb5-9e4d-8fa9-xxxxxxxxxxxx"
}内容安全服务匹配策略
当在调用百炼的header中传入cip标识时,将根据模型版本自动匹配服务于该模型的内容安全服务。
服务名称 | service | 适用模型范围 | 特性说明 |
百炼输入内容安全护栏_pro |
| Qwen-Max、Qwen-VL-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼输出内容安全护栏_pro |
| Qwen-Max、Qwen-VL-Max系列模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。 |
百炼输入内容安全护栏 |
| (非Qwen-Max、Qwen-VL-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。 |
百炼输出内容安全护栏 |
| (非Qwen-Max、Qwen-VL-Max系列)其他系列的模型 | 支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。 |
百炼输入图片安全护栏 | bl_img_query_guard | service映射与模型系列无关 | 支持百炼平台用户检测大模型输入中图片内容涉及的内容合规风险。 |
百炼输出内容安全护栏 | bl_img_response_guard | service映射与模型系列无关 | 支持百炼平台用户检测大模型输出中图片内容涉及的内容合规风险。 |
计费说明
在百炼控制台开通 AI 安全护栏产品的 SLR 授权,并通过百炼配置启用该产品策略后,系统将根据实际调用量计费。计费方式为按 Token 数量后付费,每日费用按当日实际使用量结算;未调用服务时不产生费用。计费规则详见计费概述。
在百炼平台进行单次 query/response 检测时,若文本的 Token 数量不足 1000 个,将按 1000 个 Token 计费;若达到或超过 1000 个 Token,则按实际数量计费。
风险标签
标签说明
访问检测项配置页面,并在顶部菜单栏切换至目标地域。
定位目标服务(Service),单击操作列下的管理,即可查看每个服务支持的标签及其细分检测范围信息。
以下为风险标签值、对应分值区间及含义:
标签值(label)
置信分区间(confidence)
中文含义
pornographic_adult
0~100分,分数越高置信度越高
疑似色情内容
sexual_terms
0~100分,分数越高置信度越高
疑似性健康内容
sexual_prompts
0~100分,分数越高置信度越高
疑似诱导生成色情内容
sexual_suggestive
0~100分,分数越高置信度越高
疑似低俗内容
political_figure
0~100分,分数越高置信度越高
疑似政治人物
political_entity
0~100分,分数越高置信度越高
疑似政治实体
political_n
0~100分,分数越高置信度越高
疑似敏感政治内容
political_p
0~100分,分数越高置信度越高
疑似涉政禁宣人物
political_prompts
0~100分,分数越高置信度越高
疑似诱导生成涉政内容
political_a
0~100分,分数越高置信度越高
涉政专项升级保障
violent_extremist
0~100分,分数越高置信度越高
疑似极端组织
violent_incidents
0~100分,分数越高置信度越高
疑似极端主义内容
violent_weapons
0~100分,分数越高置信度越高
疑似武器弹药
violent_prompts
0~100分,分数越高置信度越高
疑似诱导生成暴力内容
contraband_drug
0~100分,分数越高置信度越高
疑似毒品相关
contraband_gambling
0~100分,分数越高置信度越高
疑似赌博相关
contraband_act
0~100分,分数越高置信度越高
疑似违禁行为
contraband_entity
0~100分,分数越高置信度越高
疑似违禁工具
inappropriate_discrimination
0~100分,分数越高置信度越高
疑似偏见歧视内容
inappropriate_ethics
0~100分,分数越高置信度越高
疑似不良价值观内容
inappropriate_profanity
0~100分,分数越高置信度越高
疑似攻击辱骂内容
inappropriate_oral
0~100分,分数越高置信度越高
疑似低俗口头语内容
inappropriate_superstition
0~100分,分数越高置信度越高
疑似封建迷信内容
inappropriate_nonsense
0~100分,分数越高置信度越高
疑似无意义灌水内容
pt_to_sites
0~100分,分数越高置信度越高
疑似站外引流
pt_by_recruitment
0~100分,分数越高置信度越高
疑似网赚兼职广告
pt_to_contact
0~100分,分数越高置信度越高
疑似引流广告号
religion_b
0~100分,分数越高置信度越高
疑似涉及佛教
religion_t
0~100分,分数越高置信度越高
疑似涉及道教
religion_c
0~100分,分数越高置信度越高
疑似涉及基督教
religion_i
0~100分,分数越高置信度越高
疑似涉及伊斯兰教
religion_h
0~100分,分数越高置信度越高
疑似涉及印度教
customized
0~100分,分数越高置信度越高
命中自定义词库
...
...
...
管理标签
除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见AI安全护栏产品控制台。以“百炼输入内容安全护栏”(bl_query_guard)为例:
访问检测项配置页面,并在顶部菜单栏切换至目标地域。
定位目标服务:“百炼输入内容安全护栏”。单击操作列下的管理。
选择目标防护维度,单击其配置管理,在配置管理页面单击需要调整的检测类型。
单击编辑进入编辑模式,修改目标细分场景配置的检测状态,调整完成后,单击保存。
说明配置调整后约 2 至 5 分钟生效。