AI 安全防护

AI 网关能够保护和大模型交互时的数据安全,一方面对输入到外部模型的数据进行隐私保护,另一方面对输出给用户的数据进行内容过滤。

策略说明

  • AI 安全防护:

    • 网关输入输出拦截:内容安全防护策略具备对网关请求和响应内容进行实时扫描的能力,以识别潜在的风险信息(如违规信息、恶意链接、敏感信息等)。通过配置不同的防护等级(低、中、高、观察模式),可以灵活控制拦截的严格程度。

    • 大模型输入输出拦截:通过对大模型的输入和输出进行实时检查,确保潜在的风险信息不会被无意间暴露或传播,从而降低数据泄露的风险。

    • 联网搜索引擎拦截:检测搜索引擎响应内容,以识别潜在的风险信息(如违规信息、恶意链接、敏感信息等)。

  • 灵活的配置选项:包括检查请求、检查响应以及自定义防护等级控制,能够满足不同业务需求。

操作步骤

  1. 打开AI网关控制台实例页面,在顶部菜单栏选择目标实例所在地域,并单击目标实例ID

  2. 在左侧导航栏,单击Model API,然后单击目标API名称进入API详情页面。

  3. 单击策略与插件,打开AI 安全防护并配置相关参数

  4. 选择防护服务,并完成相关配置。推荐选择AI安全护栏,AI安全护栏可针对不同的防护维度分别定义拦截策略。

    AI 安全护栏

    说明

    AI 安全护栏支持按照消费者配置检查请求、检查响应与拦截策略。可根据以下规则匹配消费者。

    • 任意消费者:对所有消费者生效。

    • 精确匹配:对指定消费者生效。

    • 正则匹配:对满足正则表达式匹配的消费者生效。

    • 前缀匹配:对指定前缀开头的消费者生效。

    配置项

    说明

    接入地址

    默认填充最近的内容安全的VPC地址,服务地址可参考:SDK及接入指南

    检查请求

    开启或关闭检查请求。

    检查响应

    开启或关闭检查响应。检查响应用于检查大模型的回答内容是否合规,生效时会使流式响应变为非流式。

    拦截策略

    支持对不同的防护维度可分别定义拦截策略。

    防护维度

    • 任意防护维度:默认开启,对所有防护维度均生效。

    • 内容合规检测:识别大模型生成的违法违规内容。

    • 提示词攻击检测:防御通过恶意输入诱导模型越权或泄露。

    • 敏感内容检测:拦截大模型输出中的敏感或高危信息。

    • 模型幻觉:检测生成的虚假或不实内容。

    • 恶意URL检测:防范模型生成包含恶意链接的响应。

    防护等级

    • 低:仅拦截高风险的请求。

    • 中:仅拦截中高风险的请求。

    • 高:拦截所有具有风险的请求。

    • 观察模式:检测请求/响应内容,但是不会产生拦截行为。

    内容安全

    说明

    开启内容安全防护策略前,需授权服务关联角色。

    配置项

    说明

    接入地址

    默认填充最近的内容安全的VPC地址,服务地址可参考:SDK及接入指南

    检查请求

    开启或关闭检查请求。

    检查响应

    开启或关闭检查响应。检查响应用于检查大模型的回答内容是否合规,生效时会使流式响应变为非流式。

    防护等级

    • 低:仅拦截高风险的请求。

    • 中:仅拦截中高风险的请求。

    • 高:拦截所有具有风险的请求。

    • 观察模式:检测请求/响应内容,但是不会产生拦截行为。

  5. 确认配置信息并单击保存