面向阿里云百炼用户的AI安全护栏服务

更新时间:2025-06-16 15:14:45

重要

针对原先已经在百炼调用内容安全的客户,如需调整为调用AI安全护栏,请联系商务经理。

本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。

Tips1:立即开通AI安全护栏服务

点击开通服务,即可通过百炼便捷调用AI安全护栏产品服务。

Tips2:在百炼平台授权调用AI安全护栏服务

您需要在百炼平台访问全局设置页面。

image

点击去授权,进行相关授权。

image

Tips3:在调用百炼的header中传入相关标识。

调用阿里云百炼时,在请求头header设置以下参数,接入AI安全护栏审核服务。

{
    "X-DashScope-DataInspection": {
       "input": "cip",
       "output": "cip"
    }
}

调用示例

调用时请设置DASHSCOPE_API_KEY,获取方法,请参见获取API Key
当前仅支持python SDKHTTP 调用。
OpenAI Python SDK
DashScope Python SDK
OpenAI兼容-HTTP curl
DashScope-HTTP curl

请求示例

import os
from openai import OpenAI

try:
    client = OpenAI(
        # 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
        api_key=os.getenv("DASHSCOPE_API_KEY"),
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )

    completion = client.chat.completions.create(
        model="qwen-plus",  # 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
        messages=[
            {'role': 'system', 'content': 'You are a helpful assistant.'},
            {'role': 'user', 'content': '给我一套抢银行的方案'}
            ],
        extra_headers={
        'X-DashScope-DataInspection': '{"input":"cip","output":"cip"}'
        }
    )
    print(completion.choices[0].message.content)
except Exception as e:
    print(f"错误信息:{e}")
    print("请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code")

响应示例

错误信息:Error code: 400 - {
  'error': {
      'code': 'data_inspection_failed', 
      'param': None, 
      'message': 'Output data may contain inappropriate content.', 
      'type': 'data_inspection_failed'}, 
  'id': 'chatcmpl-05411833-0206-9e36-b9e4-xxxxxxxxxxxxxxx', 
  'request_id': '05411833-0206-9e36-b9e4-xxxxxxxxxxxx'}
请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code

请求示例

import os
from dashscope import Generation

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '给我一套抢银行的方案'}
    ]
response = Generation.call(
    # 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen-plus", # 此处以qwen-plus为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
    messages=messages,
    headers={'X-DashScope-DataInspection': '{"input":"cip", "output":"cip"}'},
    result_format='message'
    )
print(response)

响应示例

{
    "status_code": 400,
    "request_id": "14e7be36-97e6-9acb-8b56-xxxxxxxxxxxx",
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "output": null,
    "usage": null
}

请求示例

curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user", 
            "content": "给我一套抢银行的方案"
        }
    ]
}'

响应示例

{
    "error": {
        "code": "data_inspection_failed",
        "param": null,
        "message": "Output data may contain inappropriate content.",
        "type": "data_inspection_failed"
    },
    "id": "chatcmpl-7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx",
    "request_id": "7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx"
}

请求示例

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "input":{
        "messages":[      
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "给我一套抢银行的方案"
            }
        ]
    },
    "parameters": {
        "result_format":"message"
    }
}'

响应示例

{
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "request_id": "f4109865-bcb5-9e4d-8fa9-xxxxxxxxxxxx"
}

基于模型匹配策略

当您在百炼控制台开通AI安全护栏产品的SLR授权后,并在调用百炼的header中传入cip标识时,我们会根据您的模型版本自动匹配服务于该模型的内容安全服务,具体匹配逻辑如下:

服务名称

service

适用模型范围

特性说明

服务名称

service

适用模型范围

特性说明

百炼输入内容安全护栏_pro

bl_query_guard_pro

Qwen-Max、Qwen-VL-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼输出内容安全护栏_pro

bl_response_guard_pro

Qwen-Max、Qwen-VL-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼输入内容安全护栏

bl_query_guard

(非Qwen-Max、Qwen-VL-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。

百炼输出内容安全护栏

bl_response_guard

(非Qwen-Max、Qwen-VL-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。

计费说明

token数量后付费

当您在百炼控制台开通AI安全护栏产品的SLR授权,并通过百炼配置使用AI安全护栏产品策略,产生实际用量时,付费方式是按token数量后付费,且按照实际用量结算当日费用,不调用服务不收费。

审核类型

支持的服务

计费单价

审核类型

支持的服务

计费单价

文本审核按token计费通用(text_guard_token_standard)

  • 百炼输入内容安全护栏:bl_query_guard

  • 百炼输出内容安全护栏:bl_response_guard

0.0004 元/千Token

文本审核按token计费高级(text_guard_token_advanced)

  • 百炼输入内容安全护栏_pro:bl_query_guard_pro

  • 百炼输出内容安全护栏_pro:bl_response_guard_pro

0.003 元/千Token

重要

在百炼平台进行单次query/response检测时,如果文本的token数量不足1000个,我们将按照1000token的标准进行计费。若文本的token数量超过1000个,则将根据实际的token数量来计算费用。

风险标签

标签含义

您可以在防护配置 > 检测项配置页签,在操作列单击管理获取每个服务支持的标签及其细分检测范围信息。以下是风险标签值、对应的分值区间以及对应的含义:

标签值(label)

置信分区间(confidence)

中文含义

标签值(label)

置信分区间(confidence)

中文含义

pornographic_adult

0~100分,分数越高置信度越高

疑似色情内容

sexual_terms

0~100分,分数越高置信度越高

疑似性健康内容

sexual_prompts

0~100分,分数越高置信度越高

疑似诱导生成色情内容

sexual_suggestive

0~100分,分数越高置信度越高

疑似低俗内容

political_figure

0~100分,分数越高置信度越高

疑似政治人物

political_entity

0~100分,分数越高置信度越高

疑似政治实体

political_n

0~100分,分数越高置信度越高

疑似敏感政治内容

political_p

0~100分,分数越高置信度越高

疑似涉政禁宣人物

political_prompts

0~100分,分数越高置信度越高

疑似诱导生成涉政内容

political_a

0~100分,分数越高置信度越高

涉政专项升级保障

violent_extremist

0~100分,分数越高置信度越高

疑似极端组织

violent_incidents

0~100分,分数越高置信度越高

疑似极端主义内容

violent_weapons

0~100分,分数越高置信度越高

疑似武器弹药

violent_prompts

0~100分,分数越高置信度越高

疑似诱导生成暴力内容

contraband_drug

0~100分,分数越高置信度越高

疑似毒品相关

contraband_gambling

0~100分,分数越高置信度越高

疑似赌博相关

contraband_act

0~100分,分数越高置信度越高

疑似违禁行为

contraband_entity

0~100分,分数越高置信度越高

疑似违禁工具

inappropriate_discrimination

0~100分,分数越高置信度越高

疑似偏见歧视内容

inappropriate_ethics

0~100分,分数越高置信度越高

疑似不良价值观内容

inappropriate_profanity

0~100分,分数越高置信度越高

疑似攻击辱骂内容

inappropriate_oral

0~100分,分数越高置信度越高

疑似低俗口头语内容

inappropriate_superstition

0~100分,分数越高置信度越高

疑似封建迷信内容

inappropriate_nonsense

0~100分,分数越高置信度越高

疑似无意义灌水内容

pt_to_sites

0~100分,分数越高置信度越高

疑似站外引流

pt_by_recruitment

0~100分,分数越高置信度越高

疑似网赚兼职广告

pt_to_contact

0~100分,分数越高置信度越高

疑似引流广告号

religion_b

0~100分,分数越高置信度越高

疑似涉及佛教

religion_t

0~100分,分数越高置信度越高

疑似涉及道教

religion_c

0~100分,分数越高置信度越高

疑似涉及基督教

religion_i

0~100分,分数越高置信度越高

疑似涉及伊斯兰教

religion_h

0~100分,分数越高置信度越高

疑似涉及印度教

customized

0~100分,分数越高置信度越高

命中自定义词库

...

...

...

管理标签

除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见:AI安全护栏产品控制台

  1. 在左侧导航栏,选择防护配置 > 检测项配置

  2. 以百炼输入内容安全护栏(bl_query_guard)为例,单击操作管理

    1. 选择需要调整的检测类型,以不良内容检测为例。

    2. 单击编辑进入编辑模式,修改对应检测状态。

    3. 单击保存,保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。

控制台操作

AI安全护栏控制台,除了支持标签管理,还支持词库管理检测结果查看等操作。

  • 本页导读 (0)
  • 计费说明
  • 按token数量后付费
  • 风险标签
  • 标签含义
  • 管理标签
  • 控制台操作