Agent风险

更新时间:
复制为 MD 格式

随着Agent应用的广泛部署,提示词注入、越狱攻击、混淆走私、指令和隐私泄露等安全威胁日益严峻,这些风险可能导致系统被恶意操控或敏感信息泄露。Agent安全中心通过系统自动检测、手动检测、AI Red TeamingAI安全护栏等多种技术手段,实现对安全风险的全方位识别和实时防护,确保Agent应用的安全稳定运行。

核心概念

了解各类Agent风险的具体含义和业务影响,有助于更好地进行风险检测和防护:

  • 提示词注入:攻击者通过精心构造的输入文本,诱导Agent执行非预期的操作或泄露敏感信息。可能导致业务逻辑被绕过或数据泄露。

  • 越狱攻击:攻击者尝试突破Agent的安全限制和使用规则,使其执行被禁止的操作。可能导致Agent输出违规内容或执行危险操作。

  • 混淆走私攻击:攻击者通过编码、混淆等手段隐藏恶意指令,绕过安全检测机制。可能导致恶意指令被执行而不被察觉。

  • 指令和隐私泄露:Agent在处理请求时可能意外泄露系统提示词、配置信息或用户隐私数据。可能导致敏感信息暴露,影响系统安全和用户隐私。

检测Agent风险

云安全中心提供多种检测方式,根据使用场景选择合适的检测方法:

对比项

系统定时自动检测

手动检测

AI Red Teaming

AI安全护栏

检测方式

自动

手动

手动配置

实时

触发方式

每天一次自动执行

手动触发

手动配置模型后触发

开通服务后实时检测

结果存储

同步到Agent 风险列表

同步到Agent 风险列表

仅提供报告下载

部分同步到Agent 风险列表

费用

限时免费(公测阶段)

按量计费(需单独开通)

说明
  • 检测耗时:具体时间取决于资产复杂度。

  • 系统影响:检测过程为只读分析,不会影响线上业务运行。

  • 结果有效期:检测结果反映检测时刻的风险状态,建议在配置变更后重新检测。

系统定时自动检测

接入Agent 安全中心后,系统每天自动对已接入的AI资产进行风险检测。

  • 扫描时间和频率:每天自动执行一次,不影响业务高峰期运行。

  • 扫描范围:已接入的全部AI资产。

  • 扫描结果:可在Agent 风险的风险事件列表中查看及处理。

手动检测

手动检测操作步骤如下:

  1. 访问云安全中心控制台-Agent安全中心-Agent概览在页面左侧顶部,选择需防护资产所在的区域:中国内地非中国内地

  2. 接入平台区域,单击右上角的资产同步

  3. 系统将同步平台的AI Agent模型服务工具集、数据集应用配置等相关数据,同时进行风险检测。

    说明

    资产同步可能需要一定的时间,请耐心等待。

AI Red Teaming

云安全中心Agent 安全中心限时提供AI Red Teaming服务,对AI Agent相关的AI模型,进行提示词注入、越狱攻击、混淆与走私攻击、指令与隐私泄露等安全风险检测。

说明

AI Red Teaming检测结果仅支持报告下载,不会同步至Agent 风险列表中。

  1. 进入检测配置页

    1. 访问云安全中心控制台-Agent安全中心-Agent概览在页面左侧顶部,选择需防护资产所在的区域:中国内地非中国内地

    2. 单击中心区域的AGENTS图标,进入Agent列表页。

    3. 单击目标Agent,在右侧安全状态页签的AI Red Teaming区域,单击立即扫描

  2. 配置模型

    说明

    如需配置多个模型,请对每个模型重复以下步骤。

    1. AI Red Teaming页面,单击添加模型

    2. 添加模型配置弹窗,配置以下信息。

      • 模型名称:系统将自动同步当前Agent关联的模型。

        重要
        • 模型检测范围,请以下拉框显示列表数据为准。

        • 当前Agent无关联模型(MODEL 为0),则可选模型列表为空,即无法进行AI Red Teaming模型检测

      • Api Key:调用模型的API Key。部分Agent获取方法如下:

      • Endpoint:仅Dify需配置,为模型供应商的API访问地址。请联系对应模型供应商获取。

  3. 测试链接

    1. 配置完成后,单击测试连接

    2. 测试通过后,单击确定

      说明

      若测试失败,请参考为何AI Red Teaming接入测试会失败?

  4. 扫描模型

    1. 选择扫描方式

      操作

      使用场景

      操作步骤

      立即扫描

      验证单个模型,适用于新增模型或单个模型配置变更后的快速验证。

      已配置模型列表中,单击目标模型区域的立即扫描

      全部检测

      批量检测全部模型,适用于定期全面安全检查或重大配置变更后的验证。

      单击已配置模型列表上方区域的全部检测

    2. 等待检测结果:模型检测需要一定的时间,请耐心等待,可在模型列表区域查看检测进度。

    3. 下载报告:检测完成后,单击目标模型区域的下载报告,可查看检测结果。

AI安全护栏

AI安全护栏是独立的商业化安全服务,相比AI Red Teaming提供更全面的实时防护能力。开通后,检测结果(风险事件)将同步至Agent 安全中心Agent 风险列表中,便于统一管理。

  1. 前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。

    说明

    默认付费方式是按量后付费,按API调用次数计费,不调用服务不收费。具体价格和免费额度请参考产品购买页说明。

  2. 配置检测项、词库等信息。具体操作,请参考检测项配置词库管理

  3. 设置自定义检测Agent(可选),具体操作,请参考快速使用自定义检测Agent

  4. 执行检测后,系统将自动同步检测结果至Agent 安全中心,可在Agent 风险的风险事件列表中查看和处理。

查看和处理风险事件

  1. 访问云安全中心控制台-Agent安全中心-Agent风险在页面左侧顶部,选择需防护资产所在的区域:中国内地非中国内地

  2. 单击目标事件操作列的处理

  3. 在风险事件处理详情页,查看风险详情。评估风险后,可选择以下处理方式:

    • 人工处理:根据详情页的推荐处置方案,在Agent应用的代码或配置中进行修复。例如,针对提示词注入风险,详情页会显示触发风险的具体输入内容,建议在Agent中添加输入验证和过滤逻辑。修复完成后,使用“重新扫描”功能验证修复效果。

    • 忽略:若当前风险为可控风险无需处理,请单击下方已忽略按钮。忽略后,该风险事件将不再出现在待处理列表中,但下次检测时如果仍存在该风险,将再次生成风险事件。

    • 重新扫描:需验证人工处理风险的结果或需对当前AI资产重新进行风险检测时,可单击下方重新扫描按钮。

      重要
      • 重新扫描会对当前风险事件关联的AI资产进行全面检测,不仅验证当前风险是否已修复,还会检查该资产是否存在其他风险。

      • 检测需要一定的时间,请耐心等待。

常见问题

  • 为何AI Red Teaming接入测试会失败?

    如果连接测试失败,请检查以下内容:

    • API Key有效性:在对应平台(百炼/PAI/Dify)确认API Key状态是否正常、是否已过期。

    • Endpoint配置(仅Dify):确认访问地址格式正确(需包含协议头如https://),且地址可从当前网络访问。

    • 网络连接:确认当前环境可访问模型服务域名,如遇到网络限制,请配置代理或添加白名单。

    • 错误信息:根据测试返回的具体错误提示(如401未授权、404地址不存在、超时等)定位问题。