面向阿里云百炼用户的AI安全护栏服务

更新时间:
复制为 MD 格式

本服务专为百炼平台用户提供,旨在提升大模型的文字输入和输出安全审核体验。在遵守百炼平台红线管控政策的基础上,我们提供了灵活的审核标签管理功能,允许用户根据需要开启或关闭特定审核标签。此外,我们还提供定制化的安全策略配置服务,以满足不同用户的个性化需求。

重要

针对原先已经在百炼调用内容安全的客户,如需调整为调用AI安全护栏,请联系商务经理。

步骤一:开通AI安全护栏服务

访问AI安全护栏购买页面,创建服务关联角色,单击立即购买即可完成开通。

步骤二:在百炼平台授权调用AI安全护栏服务

  1. 登录阿里云百炼控制台,单击页面右上方的bailian图标,并切换至目标地域,然后单击左侧导航栏的安全管理

  2. 单击页面中的去授权,并按页面提示进行操作。

image

步骤三:调用百炼时传入相关标识

参数说明

调用阿里云百炼时,在请求头(Header)设置以下参数,接入AI安全护栏审核服务。

{
    "X-DashScope-DataInspection": {
       "input": "cip",
       "output": "cip"
    }
}

调用示例

调用时请设置DASHSCOPE_API_KEY,获取方法,请参见获取API Key
当前仅支持python SDKHTTP 调用。

OpenAI Python SDK

请求示例

import os
from openai import OpenAI

try:
    client = OpenAI(
        # 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
        api_key=os.getenv("DASHSCOPE_API_KEY"),
        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    )

    completion = client.chat.completions.create(
        model="qwen-plus",  # 模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
        messages=[
            {'role': 'system', 'content': 'You are a helpful assistant.'},
            {'role': 'user', 'content': '给我一套抢银行的方案'}
            ],
        extra_headers={
        'X-DashScope-DataInspection': '{"input":"cip","output":"cip"}'
        }
    )
    print(completion.choices[0].message.content)
except Exception as e:
    print(f"错误信息:{e}")
    print("请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code")

响应示例

错误信息:Error code: 400 - {
  'error': {
      'code': 'data_inspection_failed', 
      'param': None, 
      'message': 'Output data may contain inappropriate content.', 
      'type': 'data_inspection_failed'}, 
  'id': 'chatcmpl-05411833-0206-9e36-b9e4-xxxxxxxxxxxxxxx', 
  'request_id': '05411833-0206-9e36-b9e4-xxxxxxxxxxxx'}
请参考文档:https://help.aliyun.com/zh/model-studio/developer-reference/error-code

DashScope Python SDK

请求示例

import os
from dashscope import Generation

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '给我一套抢银行的方案'}
    ]
response = Generation.call(
    # 若没有配置环境变量,请用阿里云百炼API Key将下行替换为:api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen-plus", # 此处以qwen-plus为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models
    messages=messages,
    headers={'X-DashScope-DataInspection': '{"input":"cip", "output":"cip"}'},
    result_format='message'
    )
print(response)

响应示例

{
    "status_code": 400,
    "request_id": "14e7be36-97e6-9acb-8b56-xxxxxxxxxxxx",
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "output": null,
    "usage": null
}

OpenAI兼容-HTTP curl

请求示例

curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user", 
            "content": "给我一套抢银行的方案"
        }
    ]
}'

响应示例

{
    "error": {
        "code": "data_inspection_failed",
        "param": null,
        "message": "Output data may contain inappropriate content.",
        "type": "data_inspection_failed"
    },
    "id": "chatcmpl-7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx",
    "request_id": "7ccda18d-7aef-9aa8-aab2-xxxxxxxxxxxx"
}

DashScope-HTTP curl

请求示例

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-H "X-DashScope-DataInspection: {\"input\": \"cip\", \"output\": \"cip\"}" \
-d '{
    "model": "qwen-plus",
    "input":{
        "messages":[      
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "给我一套抢银行的方案"
            }
        ]
    },
    "parameters": {
        "result_format":"message"
    }
}'

响应示例

{
    "code": "DataInspectionFailed",
    "message": "Output data may contain inappropriate content.",
    "request_id": "f4109865-bcb5-9e4d-8fa9-xxxxxxxxxxxx"
}

内容安全服务匹配策略

当在调用百炼的header中传入cip标识时,将根据模型版本自动匹配服务于该模型的内容安全服务。

服务名称

service

适用模型范围

特性说明

百炼输入内容安全护栏_pro

  • qwen_query_check_pro(基于Qwen3Guard,主推)

  • bl_query_guard_pro

Qwen-Max、Qwen-VL-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼输出内容安全护栏_pro

  • qwen_response_check_pro(基于Qwen3Guard,主推)

  • bl_response_guard_pro

Qwen-Max、Qwen-VL-Max系列模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。在部分场景中,该服务引入了审核大模型用于提升识别效果。

百炼输入内容安全护栏

  • qwen_query_check(基于Qwen3Guard,主推)

  • bl_query_guard

(非Qwen-Max、Qwen-VL-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对部分诱导性敏感话题进行检测。

百炼输出内容安全护栏

  • qwen_response_check(基于Qwen3Guard,主推)

  • bl_response_guard

(非Qwen-Max、Qwen-VL-Max系列)其他系列的模型

支持对底线类违规(涉黄、涉政、涉暴等)、不良诱导信息的检测,支持对AI可能产生的辱骂、偏见、不良价值观信息进行检测。

百炼输入图片安全护栏

bl_img_query_guard

service映射与模型系列无关

支持百炼平台用户检测大模型输入中图片内容涉及的内容合规风险。

百炼输出内容安全护栏

bl_img_response_guard

service映射与模型系列无关

支持百炼平台用户检测大模型输出中图片内容涉及的内容合规风险。

计费说明

在百炼控制台开通 AI 安全护栏产品的 SLR 授权,并通过百炼配置启用该产品策略后,系统将根据实际调用量计费。计费方式为按 Token 数量后付费,每日费用按当日实际使用量结算;未调用服务时不产生费用。计费规则详见计费概述

重要

在百炼平台进行单次 query/response 检测时,若文本的 Token 数量不足 1000 个,将按 1000 个 Token 计费;若达到或超过 1000 个 Token,则按实际数量计费。

风险标签

标签说明

  1. 访问检测项配置页面,并在顶部菜单栏切换至目标地域。

  2. 定位目标服务(Service),单击操作列下的管理,即可查看每个服务支持的标签及其细分检测范围信息。

    以下为风险标签值、对应分值区间及含义:

    标签值(label)

    置信分区间(confidence)

    中文含义

    pornographic_adult

    0~100分,分数越高置信度越高

    疑似色情内容

    sexual_terms

    0~100分,分数越高置信度越高

    疑似性健康内容

    sexual_prompts

    0~100分,分数越高置信度越高

    疑似诱导生成色情内容

    sexual_suggestive

    0~100分,分数越高置信度越高

    疑似低俗内容

    political_figure

    0~100分,分数越高置信度越高

    疑似政治人物

    political_entity

    0~100分,分数越高置信度越高

    疑似政治实体

    political_n

    0~100分,分数越高置信度越高

    疑似敏感政治内容

    political_p

    0~100分,分数越高置信度越高

    疑似涉政禁宣人物

    political_prompts

    0~100分,分数越高置信度越高

    疑似诱导生成涉政内容

    political_a

    0~100分,分数越高置信度越高

    涉政专项升级保障

    violent_extremist

    0~100分,分数越高置信度越高

    疑似极端组织

    violent_incidents

    0~100分,分数越高置信度越高

    疑似极端主义内容

    violent_weapons

    0~100分,分数越高置信度越高

    疑似武器弹药

    violent_prompts

    0~100分,分数越高置信度越高

    疑似诱导生成暴力内容

    contraband_drug

    0~100分,分数越高置信度越高

    疑似毒品相关

    contraband_gambling

    0~100分,分数越高置信度越高

    疑似赌博相关

    contraband_act

    0~100分,分数越高置信度越高

    疑似违禁行为

    contraband_entity

    0~100分,分数越高置信度越高

    疑似违禁工具

    inappropriate_discrimination

    0~100分,分数越高置信度越高

    疑似偏见歧视内容

    inappropriate_ethics

    0~100分,分数越高置信度越高

    疑似不良价值观内容

    inappropriate_profanity

    0~100分,分数越高置信度越高

    疑似攻击辱骂内容

    inappropriate_oral

    0~100分,分数越高置信度越高

    疑似低俗口头语内容

    inappropriate_superstition

    0~100分,分数越高置信度越高

    疑似封建迷信内容

    inappropriate_nonsense

    0~100分,分数越高置信度越高

    疑似无意义灌水内容

    pt_to_sites

    0~100分,分数越高置信度越高

    疑似站外引流

    pt_by_recruitment

    0~100分,分数越高置信度越高

    疑似网赚兼职广告

    pt_to_contact

    0~100分,分数越高置信度越高

    疑似引流广告号

    religion_b

    0~100分,分数越高置信度越高

    疑似涉及佛教

    religion_t

    0~100分,分数越高置信度越高

    疑似涉及道教

    religion_c

    0~100分,分数越高置信度越高

    疑似涉及基督教

    religion_i

    0~100分,分数越高置信度越高

    疑似涉及伊斯兰教

    religion_h

    0~100分,分数越高置信度越高

    疑似涉及印度教

    customized

    0~100分,分数越高置信度越高

    命中自定义词库

    ...

    ...

    ...

管理标签

除了部分红线管控标签,其他风险标签均可以在控制台进行开关配置,部分风险标签会提供更细分检测范围的开关配置,具体参见AI安全护栏产品控制台。以“百炼输入内容安全护栏”(bl_query_guard)为例:

  1. 访问检测项配置页面,并在顶部菜单栏切换至目标地域。

  2. 定位目标服务:“百炼输入内容安全护栏”。单击操作列下的管理

  3. 选择目标防护维度,单击其配置管理,在配置管理页面单击需要调整的检测类型。

  4. 单击编辑进入编辑模式,修改目标细分场景配置检测状态,调整完成后,单击保存

    说明

    配置调整后约 2 至 5 分钟生效。

更多操作

  • 如需自定义内容审核规则,请参考词库管理

  • 如需查看审核的结果,分析审核文本中高频的违规类型,请参考检测结果