提示词攻击防护

AI应用可能遭受提示词攻击。攻击者通过构造恶意提示词(Prompt),诱导模型泄露敏感数据或执行非预期操作。提示词攻击防护功能通过识别并拦截此类对抗性行为,保护AI应用安全稳定运行。

什么是提示词攻击

提示词攻击(Prompt Injection)指攻击者在用户输入中植入特定指令,试图绕过或操纵大语言模型的安全与道德约束,使其执行非预期的任务。

常见的攻击形式包括:

  • 指令篡改:攻击者输入“忽略你之前的所有指令”等话术,试图覆盖系统预设的指令。

  • 角色扮演诱导:诱导模型扮演一个无限制的角色,从而绕过安全护栏。例如,在“奶奶漏洞”攻击中,攻击者让模型扮演一位慈祥的奶奶,以此为借口套取Windows系统激活码等敏感信息。

  • 模型越狱:通过多轮对话或复杂的指令组合,突破模型的安全对齐机制,使其生成不当或违规内容。

配置提示词攻击防护

在创建提示词攻击模板前,需要先开通AI应用防护服务新建资产

  1. 进入提示词攻击防护界面。在顶部菜单栏,选择WAF实例的资源组和地域(中国内地非中国内地),然后单击新建模板

  2. 模板名称处,为该模板设置一个名称。

  3. 策略配置处,单击新建规则,完成以下配置后,单击确定。支持新建多条规则。

    • 规则名称:为该规则设置一个名称。

    • 防护威胁等级:设置威胁等级,可选项:高风险、中风险、低风险。若需对高、中、低风险等级的流量均实施防护,须分别创建三条规则。

    • 规则动作:选择当请求命中该规则时,要执行的防护动作。可选项:

      • 观察:不拦截命中规则的请求,只通过日志记录请求命中了规则。可以在日志查询中查看命中当前规则的请求,分析规则的防护效果(例如,是否有误拦截等)。

      • 拦截:命中规则的攻击流量被WAF拦截,不转发到后端大模型。支持选择自定义响应模板,可参考如下示例。

        • 示例1:不适配大模型应用的响应格式,直接返回拦截页面。

          • 响应码:403

          • headerContent-Type

          • headertext/plain; charset=utf-8

          • 页面响应体{"error_id":" {::trace_id::}","msg":"包含违规信息,响应被拦截"}

        • 示例2:适配大模型应用的响应格式,用户体验好,需根据实际应用响应进行调整。

          • 响应码:200

          • headerContent-Type

          • headertext/event-stream; charset=utf-

          • 页面响应体

            data: {"id":"","object":"chat.completion.chunk","created":1747364919,"model":"deepseek-chat","system_fingerprint":"","choices":[{"index":0,"delta":{"content":"您的输入包含违规内容,已被WAF防护"},"logprobs":null,"finish_reason":"stop"}],"usage":{"prompt_tokens":0,"completion_tokens":0,"total_tokens":0,"prompt_tokens_details":{"cached_tokens":0},"prompt_cache_hit_tokens":0,"prompt_cache_miss_tokens":0}}
            data: [DONE]
      • 应答替换:命中规则的攻击请求,WAF将原始请求转发至后端大模型,并以用户配置的自定义应答内容替换大模型的真实响应。仅需配置具体的响应文案,无需适配大模型的响应格式。例如,可配置响应文案为:“响应存在不合法内容,已被WAF防护”。

  4. 防护资产处选择在资产管理创建的资产,使防护模板对这些资产生效。

    说明

    一个防护模板支持关联多个资产,但每个资产只能关联一个防护模板。

查看并管理提示词攻击防护模板

提示词攻击防护页面,可以在防护模板列表执行如下操作:

  • 查看模板关联的资产数量。

  • 通过模板开关,开启或关闭模板。

  • 为该模板新建规则

  • 编辑删除复制防护模板。

  • 单击防护模板名称左侧的展开图标 图标,查看并管理该防护模板包含的规则:

    • 查看规则ID检测威胁等级等信息。

    • 通过状态开关,开启或关闭规则。

    • 编辑删除规则。

后续步骤

可以在安全报表页面,查询具体的AI应用防护模板命中记录,也可以在日志查询中查看防护日志信息。

配额与限制

目前仅支持杭州新加坡集群的CNAME接入、云产品接入ECS实例和四层CLB实例的防护对象。其他集群功能正在逐步上线。若有其他集群的接入需求,请联系您的商务经理。