AI应用可能遭受提示词攻击。攻击者通过构造恶意提示词(Prompt),诱导模型泄露敏感数据或执行非预期操作。提示词攻击防护功能通过识别并拦截此类对抗性行为,保护AI应用安全稳定运行。
什么是提示词攻击
提示词攻击(Prompt Injection)指攻击者在用户输入中植入特定指令,试图绕过或操纵大语言模型的安全与道德约束,使其执行非预期的任务。
常见的攻击形式包括:
指令篡改:攻击者输入“忽略你之前的所有指令”等话术,试图覆盖系统预设的指令。
角色扮演诱导:诱导模型扮演一个无限制的角色,从而绕过安全护栏。例如,在“奶奶漏洞”攻击中,攻击者让模型扮演一位慈祥的奶奶,以此为借口套取Windows系统激活码等敏感信息。
模型越狱:通过多轮对话或复杂的指令组合,突破模型的安全对齐机制,使其生成不当或违规内容。
创建提示词攻击防护模板
在创建提示词攻击模板前,您需要先开通AI应用防护服务并新建资产。
登录Web应用防火墙3.0控制台。在顶部菜单栏,选择WAF实例的资源组和地域(中国内地、非中国内地)。
在左侧导航栏,选择,在提示词攻击防护页面中,单击新建模板。
在模板名称处,为该模板设置一个名称。
在策略配置处,单击新建规则,完成以下配置后,单击确定。支持新建多条规则。
配置项
说明
规则名称
为该规则设置一个名称。
防护威胁等级
设置威胁等级,可选项:高风险、中风险、低风险。若需对高、中、低风险等级的流量均实施防护,须分别创建三条规则。
规则动作
选择当请求命中该规则时,要执行的防护动作。可选项:
在防护资产处选择在资产管理创建的资产,使防护模板对这些资产生效。
说明一个防护模板支持关联多个资产,但每个资产只能关联一个防护模板。
查看并管理提示词攻击防护模板
在提示词攻击防护页面,您可以在防护模板列表执行如下操作:
查看模板关联的资产数量。
通过模板开关,开启或关闭模板。
为该模板新建规则。
编辑、删除或复制防护模板。
单击防护模板名称左侧的
图标,查看并管理该防护模板包含的规则:
查看规则ID、检测威胁等级等信息。
通过状态开关,开启或关闭规则。
编辑或删除规则。
后续步骤
配额与限制
目前仅支持杭州及新加坡集群的CNAME接入、云产品接入ECS实例和四层CLB实例的防护对象。其他集群功能正在逐步上线。若有其他集群的接入需求,请联系您的商务经理。