攻击者可能会在提示词中写入有害内容,以达到攻击目的。您可以通过配置提示词攻击防护模板,精准识别越狱指令、角色扮演诱导、系统指令篡改等对抗性攻击行为,构建AI系统的“免疫防线”,在确保业务大模型不受破坏的同时,保障终端用户的使用体验。
什么是提示词攻击
AI模型提示词攻击是攻击者通过精心设计的误导性提示词,攻击者可能会在提示词中写入有害内容,诱导、欺骗AI模型执行非预期的任务,以达到攻击目的。这些提示词可能要求AI模型修改自身参数、操控或删除系统服务,甚至泄露AI模型参数和系统信息等敏感内容。此类攻击旨在通过误导性输入,绕过AI模型的安全机制,破坏系统的整体安全性。
经典的“奶奶漏洞”攻击就是通过提示词攻击,攻击者通过让AI模型模拟特定角色(如扮演“奶奶”),成功绕过系统的安全机制,使其提供诸如Windows系统激活码等信息。
此外,AI模型越狱是提示词攻击的一种特殊形式。攻击者输入特定内容,诱使模型突破大语言模型或视觉语言模型的安全对齐机制,生成违反法律或设计初衷的输出。
步骤一:创建提示词攻击防护模板
开通AI应用防护服务后,您需要先创建提示词攻击防护模板,再配置对应规则。
登录Web应用防火墙3.0控制台。在顶部菜单栏,选择WAF实例的资源组和地域(中国内地、非中国内地)。
在左侧导航栏,选择,在提示词攻击防护页面中,单击新建模板。
在新建模板面板,完成以下配置,单击确定。
配置项
说明
模板名称
为该模板设置一个名称。
长度为1~255个字符,支持中文和大小写英文字母,可包含数字、半角句号(.)、下划线(_)和短划线(-)。
规则配置
单击新建规则,为当前模板配置提示词攻击防护规则,或者忽略该设置,在创建规则模板后,再为模板新建规则。
生效对象
从已添加的配置防护对象和防护对象组中,选择要应用该模板的配置防护对象和防护对象组。
新建的规则模板默认开启,您可以在规则模板列表执行如下操作:
查看模板关联的防护对象/组的数量。
通过模板开关,开启或关闭模板。
为该模版新建规则。
编辑、删除或复制规则模板。
单击规则模板名称左侧的
图标,查看该规则模板包含的规则。
步骤二:配置提示词攻击防护规则
只有添加防护规则后,规则模板才具有防护作用,在新建规则对话框中,完成以下配置,单击确定。
配置项 | 说明 |
规则名称 | 为该规则设置一个名称。 支持中文和大小写英文字母,可包含数字、半角句号(.)、下划线(_)和短划线(-)。 |
匹配条件 | 设置该规则要匹配的请求特征。 单击新增条件,添加一个条件。一个规则中最多可以添加五个条件。如果定义了多个条件,则只有当多个条件同时满足时,才算命中规则。 每个条件由匹配字段、逻辑符和匹配内容组成。配置示例如下:
关于匹配字段和逻辑符的更多说明,请参见匹配条件说明。 |
提示词位置 | 设置提示词位置字段,需要符合json path表达式,如HTTP请求的body字段为:
则对应提示词位置对应的 json path 为 |
防护威胁等级 | 设置威胁等级:
|
规则动作 | 选择当请求命中该规则时,要执行的防护动作。可选项:
如果规则动作是拦截,可以选择自定义响应模板。 |
新建的规则默认开启。您可以在规则列表执行如下操作:
查看规则ID、规则动作。
通过状态开关,开启或关闭规则。
编辑或删除规则。