AI安全防护

AI安全防护具备对网关请求和响应内容进行实时扫描的能力,以识别潜在的风险信息,旨在检测应用程序和服务中用户请求和AI生成的有害内容,从而帮助用户提升AI应用的使用体验。通过配置不同的防护等级,可以灵活控制拦截的严格程度。 本文介绍如何开启与配置AI安全防护。

使用场景

以下列举部分建议使用AI安全防护进行风险检测的业务场景:

  • 社交平台内容审核:自动识别用户发布的内容中是否包含涉黄、涉暴、违法或敏感信息,保障社区环境安全。

  • 企业客服对话过滤:在智能客服系统中实时检测用户输入或机器人回复中的不当言论,防止违规输出,并拦截模型响应中可能包含的钓鱼链接、诈骗网站或携带恶意脚本的URL,保障用户终端安全。

  • 生成式AI应用防护:在AI写作、绘图等AIGC应用产品中防止模型生成虚假、歧视性或有害内容。

  • 医疗问答或法律咨询:在需要高准确性的专业咨询场景中,自动识别大模型生成的虚构事实、错误数据或无依据结论,避免误导用户。

  • 政务/金融信息交互:在政务服务或银行等高合规要求场景中,防止敏感信息泄露或生成不实政策解读。

操作步骤

  1. 打开AI网关控制台实例页面,在顶部菜单栏选择目标实例所在地域,并单击目标实例ID

  2. 在左侧导航栏,单击Model API,然后单击目标API名称进入API详情页面。

  3. 单击策略与插件,打开AI 安全防护并配置相关参数

    说明

    当前仅支持文本生成和图片生成场景。

    如果尚未开通AI安全护栏,需先开通AI安全护栏

  4. 选择防护服务,并完成相关配置。推荐选择AI安全护栏,AI安全护栏可针对不同的防护维度分别定义拦截策略,以及针对文本与图片处理的定制化检查策略,从而满足不同复杂业务场景的定制化安全需求。

    AI 安全护栏

    AI 安全护栏支持按照消费者配置检查策略(包括检查请求、检查响应)与拦截策略。可根据以下规则匹配消费者。

    • 任意消费者:对所有消费者生效。

    • 精确匹配:对指定消费者生效。

    • 正则匹配:对满足正则表达式匹配的消费者生效。

    • 前缀匹配:对指定前缀开头的消费者生效。

    配置项

    说明

    接入地址

    默认填充最近的内容安全的VPC地址,服务地址可参考:SDK及接入指南

    拦截策略

    对命中检查规则的请求或返回进行拦截,有效阻断违规内容传播,提升安全性。

    如果开启AI安全护栏后未配置拦截策略,将执行默认策略,即对任意消费者的任意防护维度开启低防护等级。

    支持对不同的消费者与防护维度分别定义拦截策略。

    防护维度

    • 任意防护维度:对所有防护维度均生效。

    • 内容合规检测:识别大模型生成的违法违规内容。

    • 提示词攻击检测:防御通过恶意输入诱导模型越权或泄露。

    • 敏感内容检测:拦截大模型输出中的敏感或高危信息。

    • 模型幻觉:检测生成的虚假或不实内容。

    • 恶意URL检测:防范模型生成包含恶意链接的响应。

    防护等级

    • 低:仅拦截高风险的请求。

    • 中:仅拦截中高风险的请求。

    • 高:拦截所有具有风险的请求。

    • 观察模式:检测请求/响应内容,但是不会产生拦截行为。

    检查策略

    对用户发起的请求与模型的返回进行检查,并将相关结果保存在日志中,以提升风险发现能力,支持事后审计与应用优化。

    检查策略支持针对文本图片分别配置检查请求检查响应

    检查请求:检查用户对Model API的请求内容是否违规。支持配置消费者匹配规则。支持配置以下防护策略(Service):

    说明

    防护策略(Service)引用AI安全护栏相关配置,可前往AI安全护栏进行定制化配置。详情请参见AI安全护栏检测项配置

    • 仅文本

      • query_security_check:支持检测大模型输入内容中的内容合规风险、敏感内容风险、提示词攻击风险。

      • response_security_check:支持检测大模型生成内容中的内容合规、敏感内容以及由提示词攻击导致的异常输出风险。

      • response_security_check_hp:适用于流式生成内容检测,具备更低的检测耗时、更快的响应速度。支持检测大模型生成内容中的内容合规、敏感内容以及由提示词攻击导致的异常输出风险。

    • 仅图片

      • img_query_security_check:支持检测大模型输入图片中的内容合规风险。

      • img_response_security_check:支持检测大模型输出图片中的内容合规风险。

    检查响应:检查大模型的回答内容是否合规,生效时会使流式响应变为非流式。支持配置消费者匹配规则。支持配置以下防护策略(Service):

    • 仅文本

      • query_security_check:支持检测大模型输入内容中的内容合规风险、敏感内容风险、提示词攻击风险。

      • response_security_check:支持检测大模型生成内容中的内容合规、敏感内容以及由提示词攻击导致的异常输出风险。

      • response_security_check_hp:适用于流式生成内容检测,具备更低的检测耗时、更快的响应速度。支持检测大模型生成内容中的内容合规、敏感内容以及由提示词攻击导致的异常输出风险。

    • 仅图片

      • img_query_security_check:支持检测大模型输入图片中的内容合规风险。

      • img_response_security_check:支持检测大模型输出图片中的内容合规风险。

    AI安全护栏生效规则说明

    • 仅开启AI安全护栏,未开启或进行拦截策略配置及检查策略配置,AI安全防护能力不生效。

    • 开启AI安全护栏并配置拦截策略,但未开启检查策略,AI安全防护能力不生效。

    • 开启AI安全护栏并开启检查策略,但未配置拦截策略,AI安全防护将开启默认配置,为任意消费者的任意防护维度开启低防护等级。

    • 开启AI安全护栏并配置检查策略与拦截策略,AI安全防护将根据用户配置,对用户发起的请求与模型的返回进行检查并将相关结果保存在日志中,同时对触发检查策略的内容根据拦截策略进行拦截。

      说明

      如果配置的检查策略防护维度未包含拦截策略防护维度,则相关拦截策略不生效,例如:

      检查策略开启内容合规和敏感内容,拦截策略开启提示词攻击检测,此配置中该拦截策略不生效。

    • 开启检查策略但未进行高级配置时,将按照以下规则执行:

      • 仅文本

        • 检查请求:消费者为任意消费者,Servicequery_security_check。

        • 检查响应:消费者为任意消费者,Serviceresponse_security_check。

      • 仅图片

        • 检查请求:消费者为任意消费者,Serviceimg_query_security_check。

        • 检查响应:消费者为任意消费者,Serviceimg_query_security_check。

    • 当配置规则存在冲突时,将根据以下规则执行:

      • 优先执行匹配消费者的规则,再执行任意消费者的规则。例如如下配置中,将优先执行前缀为AI的消费者的任意防护维度高防护等级的规则,再执行任意消费者任意防护维度低防护等级的规则。
        image

      • 如果消费者匹配命中相同时,按照规则的顺序,优先执行排在上方的规则。例如如下配置中,对于所有前缀为AI的消费者,任意防护维度的防护等级为中,精确匹配的AI-TEST消费者模型幻觉防护等级为高,此时由于AI-TEST消费者被两条规则命中,且任意防护维度防护等级为中的规则排在上方,则优先执行该规则,因任意防护维度包含模型幻觉,所以对于第三条配置实际不生效。
        image

    场景化配置指南

    以下列举了一些常见的使用场景需求并说明面对相关场景应该如何配置。

    对所有请求均进行安全防护,仅拦截高危请求。

    • 检查策略:开启仅文本仅图片检查请求

    • 拦截策略:添加拦截策略,消费者选择任意消费者,防护维度选择任意防护维度,防护等级选择低。

    仅对涉及敏感词和合规风险的请求进行拦截。

    • 检查策略:开启仅文本仅图片检查请求

    • 拦截策略:添加两条拦截策略,消费者根据需求选择,防护维度分别选择内容合规检测和敏感词检测,防护等级根据需求选择。

    对所有请求都进行安全防护,其中来自重点业务(消费者名称为AIBusiness)的请求进行风险拦截,其它业务的请求仅检查但不拦截。

    • 检查策略:开启仅文本仅图片检查请求

    • 拦截策略:添加一条拦截策略,消费者配置为精确匹配并选择AIBusiness,防护维度与防护等级根据需求选择。

    对于OpenAI兼容场景的completions等请求,同时检查文本和图片的合规风险。

    • 检查策略:开启仅文本仅图片检查请求检查响应

    • 使用默认拦截策略。

    对于文本防护场景,重点业务(消费者名称为AIBusinessAIFinancial)需检测用户请求中的内容合规、敏感内容与提示词攻击。普通业务(消费者名称为Common)仅需检测内容合规。

    AI安全护栏中复制两次query_security_check并分别命名为query_security_check_majorquery_security_check_common,其中query_security_check_major防护维度开启内容合规敏感内容提示词攻击,query_security_check_common防护维度仅开启内容合规

    • 检查策略:开启仅文本检查请求

    • 在检查策略中打开高级配置,添加两条配置,第一条配置将消费者设置为前缀匹配,并输入AI,Service选择query_security_check_major。第二条配置将消费者设置为精确匹配并选择Common,Service选择query_security_check_common。

    • 使用默认拦截策略。

    内容安全

    说明

    开启内容安全防护策略前,需授权服务关联角色。

    配置项

    说明

    接入地址

    默认填充最近的内容安全的VPC地址,服务地址可参考:SDK及接入指南

    检查请求

    开启或关闭检查请求。

    检查响应

    开启或关闭检查响应。检查响应用于检查大模型的回答内容是否合规,生效时会使流式响应变为非流式。

    防护等级

    • 低:仅拦截高风险的请求。

    • 中:仅拦截中高风险的请求。

    • 高:拦截所有具有风险的请求。

    • 观察模式:检测请求/响应内容,但是不会产生拦截行为。

  5. 确认配置信息并单击保存