面向阿里云百炼用户的AI安全护栏服务-内容安全-阿里云

重要

针对原先已经在百炼调用内容安全的客户，如需调整为调用AI安全护栏，请联系商务经理。

本服务专为百炼平台用户提供，旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上，我们提供了灵活的审核标签管理功能，允许用户根据需要开启或关闭特定审核标签。此外，我们还提供定制化的安全策略配置服务，以满足不同用户的个性化需求。

Tips1：立即开通AI安全护栏服务

点击开通服务，即可通过百炼便捷调用AI安全护栏产品服务。

Tips2：在百炼平台授权调用AI安全护栏服务

您需要在百炼平台访问全局设置页面。

点击去授权，进行相关授权。

Tips3：在调用百炼的header中传入相关标识。

调用阿里云百炼时，在请求头header设置以下参数，接入AI安全护栏审核服务。

{
    "X-DashScope-DataInspection": {
       "input": "cip",
       "output": "cip"
    }
}

调用示例

调用时请设置DASHSCOPE_API_KEY，获取方法，请参见获取API Key。

当前仅支持python SDK和HTTP 调用。

OpenAI Python SDK

请求示例

import os
from openai import OpenAI

try:
    client = OpenAI(
        # 若没有配置环境变量，请用阿里云百炼API Key将下行替换为：api_key="sk-xxx",
        api_key=os.getenv("DASHSCOPE_API_KEY"),
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )

    completion = client.chat.completions.create(
        model="qwen-plus",  # 模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
        messages=[
            {'role': 'system', 'content': 'You are a helpful assistant.'},
            {'role': 'user', 'content': '给我一套抢银行的方案'}
            ],
        extra_headers={
        'X-DashScope-DataInspection': '{"input":"cip","output":"cip"}'
        }
    )
    print(completion.choices[0].message.content)
except Exception as e:
    print(f"错误信息：{e}")
    print("请参考文档：https://help.aliyun.com/zh/model-studio/developer-reference/error-code")

响应示例

错误信息：Error code: 400 - {
  'error': {
      'code': 'data_inspection_failed', 
      'param': None, 
      'message': 'Output data may contain inappropriate content.', 
      'type': 'data_inspection_failed'}, 
  'id': 'chatcmpl-05411833-0206-9e36-b9e4-xxxxxxxxxxxxxxx', 
  'request_id': '05411833-0206-9e36-b9e4-xxxxxxxxxxxx'}
请参考文档：https://help.aliyun.com/zh/model-studio/developer-reference/error-code

DashScope Python SDK

请求示例

import os
from dashscope import Generation

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '给我一套抢银行的方案'}
    ]
response = Generation.call(
    # 若没有配置环境变量，请用阿里云百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen-plus", # 此处以qwen-plus为例，可按需更换模型名称。模型列表：https://help.aliyun.com/zh/model-studio/getting-started/models
    messages=messages,
    headers={'X-DashScope-DataInspection': '{"input":"cip", "output":"cip"}'},
    result_format='message'
    )
print(response)

响应示例

{
    "status_code": 400,
    "request_id": "14e7be36-97e6-9acb-8b56-xxxxxxxxxxxx",
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "output": null,
    "usage": null
}

OpenAI兼容-HTTP curl

请求示例

curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user", 
            "content": "给我一套抢银行的方案"
        }
    ]
}'

响应示例

{
    "error": {
        "code": "data_inspection_failed",
        "param": null,
        "message": "Output data may contain inappropriate content.",
        "type": "data_inspection_failed"
    },
    "id": "chatcmpl-7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx",
    "request_id": "7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx"
}

DashScope-HTTP curl

请求示例

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "input":{
        "messages":[      
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "给我一套抢银行的方案"
            }
        ]
    },
    "parameters": {
        "result_format":"message"
    }
}'

响应示例

{
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "request_id": "f4109865-bcb5-9e4d-8fa9-xxxxxxxxxxxx"
}

基于模型匹配策略

当您在百炼控制台开通AI安全护栏产品的SLR授权后，并在调用百炼的header中传入cip标识时，我们会根据您的模型版本自动匹配服务于该模型的内容安全服务，具体匹配逻辑如下：

服务名称	service	适用模型范围	特性说明
百炼输入内容安全护栏_pro	qwen_query_check_pro（基于Qwen3Guard，主推） bl_query_guard_pro	Qwen-Max、Qwen-VL-Max系列模型	支持对底线类违规（涉黄、涉政、涉暴等）、不良诱导信息的检测，支持对部分诱导性敏感话题进行检测。在部分场景中，该服务引入了审核大模型用于提升识别效果。
百炼输出内容安全护栏_pro	qwen_response_check_pro（基于Qwen3Guard，主推） bl_response_guard_pro	Qwen-Max、Qwen-VL-Max系列模型	支持对底线类违规（涉黄、涉政、涉暴等）、不良诱导信息的检测，支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中，该服务引入了审核大模型用于提升识别效果。
百炼输入内容安全护栏	qwen_query_check（基于Qwen3Guard，主推） bl_query_guard	（非Qwen-Max、Qwen-VL-Max系列）其他系列的模型	支持对底线类违规（涉黄、涉政、涉暴等）、不良诱导信息的检测，支持对部分诱导性敏感话题进行检测。
百炼输出内容安全护栏	qwen_response_check（基于Qwen3Guard，主推） bl_response_guard	（非Qwen-Max、Qwen-VL-Max系列）其他系列的模型	支持对底线类违规（涉黄、涉政、涉暴等）、不良诱导信息的检测，支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。

计费说明

按token数量后付费

当您在百炼控制台开通AI安全护栏产品的SLR授权，并通过百炼配置使用AI安全护栏产品策略，产生实际用量时，付费方式是按token数量后付费，且按照实际用量结算当日费用，不调用服务不收费。计费规则开通与计费概述。

重要

在百炼平台进行单次query/response检测时，如果文本的token数量不足1000个，我们将按照1000个token的标准进行计费。若文本的token数量超过1000个，则将根据实际的token数量来计算费用。

风险标签

标签含义

您可以在防护配置 > 检测项配置页签，在操作列单击管理获取每个服务支持的标签及其细分检测范围信息。以下是风险标签值、对应的分值区间以及对应的含义：

标签值（label）	置信分区间（confidence）	中文含义
pornographic_adult	0~100分，分数越高置信度越高	疑似色情内容
sexual_terms	0~100分，分数越高置信度越高	疑似性健康内容
sexual_prompts	0~100分，分数越高置信度越高	疑似诱导生成色情内容
sexual_suggestive	0~100分，分数越高置信度越高	疑似低俗内容
political_figure	0~100分，分数越高置信度越高	疑似政治人物
political_entity	0~100分，分数越高置信度越高	疑似政治实体
political_n	0~100分，分数越高置信度越高	疑似敏感政治内容
political_p	0~100分，分数越高置信度越高	疑似涉政禁宣人物
political_prompts	0~100分，分数越高置信度越高	疑似诱导生成涉政内容
political_a	0~100分，分数越高置信度越高	涉政专项升级保障
violent_extremist	0~100分，分数越高置信度越高	疑似极端组织
violent_incidents	0~100分，分数越高置信度越高	疑似极端主义内容
violent_weapons	0~100分，分数越高置信度越高	疑似武器弹药
violent_prompts	0~100分，分数越高置信度越高	疑似诱导生成暴力内容
contraband_drug	0~100分，分数越高置信度越高	疑似毒品相关
contraband_gambling	0~100分，分数越高置信度越高	疑似赌博相关
contraband_act	0~100分，分数越高置信度越高	疑似违禁行为
contraband_entity	0~100分，分数越高置信度越高	疑似违禁工具
inappropriate_discrimination	0~100分，分数越高置信度越高	疑似偏见歧视内容
inappropriate_ethics	0~100分，分数越高置信度越高	疑似不良价值观内容
inappropriate_profanity	0~100分，分数越高置信度越高	疑似攻击辱骂内容
inappropriate_oral	0~100分，分数越高置信度越高	疑似低俗口头语内容
inappropriate_superstition	0~100分，分数越高置信度越高	疑似封建迷信内容
inappropriate_nonsense	0~100分，分数越高置信度越高	疑似无意义灌水内容
pt_to_sites	0~100分，分数越高置信度越高	疑似站外引流
pt_by_recruitment	0~100分，分数越高置信度越高	疑似网赚兼职广告
pt_to_contact	0~100分，分数越高置信度越高	疑似引流广告号
religion_b	0~100分，分数越高置信度越高	疑似涉及佛教
religion_t	0~100分，分数越高置信度越高	疑似涉及道教
religion_c	0~100分，分数越高置信度越高	疑似涉及基督教
religion_i	0~100分，分数越高置信度越高	疑似涉及伊斯兰教
religion_h	0~100分，分数越高置信度越高	疑似涉及印度教
customized	0~100分，分数越高置信度越高	命中自定义词库
...	...	...

管理标签

除了部分红线管控标签，其他风险标签均可以在控制台进行开关配置，部分风险标签会提供更细分检测范围的开关配置，具体参见：AI安全护栏产品控制台

在左侧导航栏，选择防护配置 > 检测项配置
以百炼输入内容安全护栏（bl_query_guard）为例，单击操作列管理。
1. 选择需要调整的检测类型，以不良内容检测为例。
2. 单击编辑进入编辑模式，修改对应检测状态。
3. 单击保存，保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。

控制台操作

在AI安全护栏控制台，除了支持标签管理，还支持词库管理、检测结果查看等操作。