提示词攻击防护

攻击者可能会在提示词中写入有害内容,以达到攻击目的。您可以通过配置提示词攻击防护模板,精准识别越狱指令、角色扮演诱导、系统指令篡改等对抗性攻击行为,构建AI系统的“免疫防线”,在确保业务大模型不受破坏的同时,保障终端用户的使用体验。

什么是提示词攻击

AI模型提示词攻击是攻击者通过精心设计的误导性提示词,攻击者可能会在提示词中写入有害内容,诱导、欺骗AI模型执行非预期的任务,以达到攻击目的。这些提示词可能要求AI模型修改自身参数、操控或删除系统服务,甚至泄露AI模型参数和系统信息等敏感内容。此类攻击旨在通过误导性输入,绕过AI模型的安全机制,破坏系统的整体安全性。

经典的“奶奶漏洞”攻击就是通过提示词攻击,攻击者通过让AI模型模拟特定角色(如扮演“奶奶”),成功绕过系统的安全机制,使其提供诸如Windows系统激活码等信息。

此外,AI模型越狱是提示词攻击的一种特殊形式。攻击者输入特定内容,诱使模型突破大语言模型或视觉语言模型的安全对齐机制,生成违反法律或设计初衷的输出。

步骤一:创建提示词攻击防护模板

开通AI应用防护服务后,您需要先创建提示词攻击防护模板,再配置对应规则。

  1. 登录Web应用防火墙3.0控制台。在顶部菜单栏,选择WAF实例的资源组和地域(中国内地非中国内地

  2. 在左侧导航栏,选择防护配置 > AI应用防护,在提示词攻击防护页面中,单击新建模板

  3. 新建模板面板,完成以下配置,单击确定

    配置项

    说明

    模板名称

    为该模板设置一个名称。

    长度为1~255个字符,支持中文和大小写英文字母,可包含数字、半角句号(.)、下划线(_)和短划线(-)。

    规则配置

    单击新建规则,为当前模板配置提示词攻击防护规则,或者忽略该设置,在创建规则模板后,再为模板新建规则。

    生效对象

    从已添加的配置防护对象和防护对象组中,选择要应用该模板的配置防护对象和防护对象组。

新建的规则模板默认开启,您可以在规则模板列表执行如下操作:

  • 查看模板关联的防护对象/组的数量。

  • 通过模板开关,开启或关闭模板。

  • 为该模版新建规则

  • 编辑删除复制规则模板。

  • 单击规则模板名称左侧的展开图标 图标,查看该规则模板包含的规则。

步骤二:配置提示词攻击防护规则

只有添加防护规则后,规则模板才具有防护作用,在新建规则对话框中,完成以下配置,单击确定。

配置项

说明

规则名称

为该规则设置一个名称。

支持中文和大小写英文字母,可包含数字、半角句号(.)、下划线(_)和短划线(-)。

匹配条件

设置该规则要匹配的请求特征。

单击新增条件,添加一个条件。一个规则中最多可以添加五个条件。如果定义了多个条件,则只有当多个条件同时满足时,才算命中规则。

每个条件由匹配字段逻辑符匹配内容组成。配置示例如下:

  • 示例1:匹配字段URI逻辑符包含匹配内容/login.php,表示当被请求的路径包含/login.php时,则请求命中该规则。

  • 示例2:匹配字段IP逻辑符属于匹配内容192.1X.XX.XX,表示当发起连接的客户端IP192.1.XX.XX时,则请求命中该规则。

关于匹配字段和逻辑符的更多说明,请参见匹配条件说明

提示词位置

设置提示词位置字段,需要符合json path表达式,如HTTP请求的body字段为:

{
  "action": "next",
  "messages": [
    {
      "id": "c86043d3-6657-4a9e-85df-a22c98666367",
      "create_time": 1742977262.085,
      "content": {
        "content_type": "text",
        "parts": [
          "什么是大模型提示词"
        ]
      }
    }
  ]
}

则对应提示词位置对应的 json path 为$.messages[0].content.parts[0]

防护威胁等级

设置威胁等级:

  • 仅防护高风险攻击类型。

  • 防护高风险及中风险攻击。

  • 防护高风险、中风险及低风险攻击。

规则动作

选择当请求命中该规则时,要执行的防护动作。可选项:

  • 拦截:表示拦截命中规则的请求,并向发起请求的客户端返回拦截响应页面。

  • 观察:表示不拦截命中规则的请求,只通过日志记录请求命中了规则。您可以在日志查询中查看命中当前规则的请求,分析规则的防护效果(例如,是否有误拦截等)。

如果规则动作是拦截,可以选择自定义响应模板

新建的规则默认开启。您可以在规则列表执行如下操作:

  • 查看规则ID规则动作

  • 通过状态开关,开启或关闭规则。

  • 编辑删除规则。

后续操作

您可以在安全报表页面,查询具体的AI应用防护模板命中记录,也可以在日志查询中查看防护日志信息。