随着Agent应用的广泛部署,提示词注入、越狱攻击、混淆走私、指令和隐私泄露等安全威胁日益严峻,这些风险可能导致系统被恶意操控或敏感信息泄露。Agent安全中心通过系统自动检测、手动检测、AI Red Teaming和AI安全护栏等多种技术手段,实现对安全风险的全方位识别和实时防护,确保Agent应用的安全稳定运行。
核心概念
了解各类Agent风险的具体含义和业务影响,有助于更好地进行风险检测和防护:
提示词注入:攻击者通过精心构造的输入文本,诱导Agent执行非预期的操作或泄露敏感信息。可能导致业务逻辑被绕过或数据泄露。
越狱攻击:攻击者尝试突破Agent的安全限制和使用规则,使其执行被禁止的操作。可能导致Agent输出违规内容或执行危险操作。
混淆走私攻击:攻击者通过编码、混淆等手段隐藏恶意指令,绕过安全检测机制。可能导致恶意指令被执行而不被察觉。
指令和隐私泄露:Agent在处理请求时可能意外泄露系统提示词、配置信息或用户隐私数据。可能导致敏感信息暴露,影响系统安全和用户隐私。
检测Agent风险
云安全中心提供多种检测方式,根据使用场景选择合适的检测方法:
对比项 | 系统定时自动检测 | 手动检测 | AI Red Teaming | AI安全护栏 |
检测方式 | 自动 | 手动 | 手动配置 | 实时 |
触发方式 | 每天一次自动执行 | 手动触发 | 手动配置模型后触发 | 开通服务后实时检测 |
结果存储 | 同步到Agent 风险列表 | 同步到Agent 风险列表 | 仅提供报告下载 | 部分同步到Agent 风险列表 |
费用 | 无 | 无 | 限时免费(公测阶段) | 按量计费(需单独开通) |
检测耗时:具体时间取决于资产复杂度。
系统影响:检测过程为只读分析,不会影响线上业务运行。
结果有效期:检测结果反映检测时刻的风险状态,建议在配置变更后重新检测。
系统定时自动检测
接入Agent 安全中心后,系统每天自动对已接入的AI资产进行风险检测。
扫描时间和频率:每天自动执行一次,不影响业务高峰期运行。
扫描范围:已接入的全部AI资产。
扫描结果:可在Agent 风险的风险事件列表中查看及处理。
手动检测
手动检测操作步骤如下:
访问云安全中心控制台-Agent安全中心-Agent概览在页面左侧顶部,选择需防护资产所在的区域:中国内地或非中国内地。
在接入平台区域,单击右上角的资产同步。
系统将同步平台的AI Agent、模型服务、工具集、数据集、应用配置等相关数据,同时进行风险检测。
说明资产同步可能需要一定的时间,请耐心等待。
AI Red Teaming
云安全中心Agent 安全中心限时提供AI Red Teaming服务,对AI Agent相关的AI模型,进行提示词注入、越狱攻击、混淆与走私攻击、指令与隐私泄露等安全风险检测。
AI Red Teaming检测结果仅支持报告下载,不会同步至Agent 风险列表中。
进入检测配置页
访问云安全中心控制台-Agent安全中心-Agent概览在页面左侧顶部,选择需防护资产所在的区域:中国内地或非中国内地。
单击中心区域的AGENTS图标,进入Agent列表页。
单击目标Agent,在右侧安全状态页签的AI Red Teaming区域,单击立即扫描。
配置模型
说明如需配置多个模型,请对每个模型重复以下步骤。
在AI Red Teaming页面,单击添加模型。
在添加模型配置弹窗,配置以下信息。
模型名称:系统将自动同步当前Agent关联的模型。
重要模型检测范围,请以下拉框显示列表数据为准。
当前Agent无关联模型(MODEL 为0),则可选模型列表为空,即无法进行AI Red Teaming模型检测。
Api Key:调用模型的API Key。部分Agent获取方法如下:
百炼:请参考获取API Key。
PAI:请参考获取访问地址和Token。
Dify:请联系对应模型供应商获取API Key。
Endpoint:仅Dify需配置,为模型供应商的API访问地址。请联系对应模型供应商获取。
测试链接
配置完成后,单击测试连接。
测试通过后,单击确定。
说明若测试失败,请参考为何AI Red Teaming接入测试会失败?。
扫描模型
选择扫描方式
操作
使用场景
操作步骤
立即扫描
验证单个模型,适用于新增模型或单个模型配置变更后的快速验证。
在已配置模型列表中,单击目标模型区域的立即扫描。
全部检测
批量检测全部模型,适用于定期全面安全检查或重大配置变更后的验证。
单击已配置模型列表上方区域的全部检测。
等待检测结果:模型检测需要一定的时间,请耐心等待,可在模型列表区域查看检测进度。
下载报告:检测完成后,单击目标模型区域的下载报告,可查看检测结果。
AI安全护栏
AI安全护栏是独立的商业化安全服务,相比AI Red Teaming提供更全面的实时防护能力。开通后,检测结果(风险事件)将同步至Agent 安全中心的Agent 风险列表中,便于统一管理。
前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。
说明默认付费方式是按量后付费,按API调用次数计费,不调用服务不收费。具体价格和免费额度请参考产品购买页说明。
设置自定义检测Agent(可选),具体操作,请参考快速使用自定义检测Agent。
执行检测后,系统将自动同步检测结果至Agent 安全中心,可在Agent 风险的风险事件列表中查看和处理。
查看和处理风险事件
访问云安全中心控制台-Agent安全中心-Agent风险在页面左侧顶部,选择需防护资产所在的区域:中国内地或非中国内地。
单击目标事件操作列的处理。
在风险事件处理详情页,查看风险详情。评估风险后,可选择以下处理方式:
人工处理:根据详情页的推荐处置方案,在Agent应用的代码或配置中进行修复。例如,针对提示词注入风险,详情页会显示触发风险的具体输入内容,建议在Agent中添加输入验证和过滤逻辑。修复完成后,使用“重新扫描”功能验证修复效果。
忽略:若当前风险为可控风险无需处理,请单击下方已忽略按钮。忽略后,该风险事件将不再出现在待处理列表中,但下次检测时如果仍存在该风险,将再次生成风险事件。
重新扫描:需验证人工处理风险的结果或需对当前AI资产重新进行风险检测时,可单击下方重新扫描按钮。
重要重新扫描会对当前风险事件关联的AI资产进行全面检测,不仅验证当前风险是否已修复,还会检查该资产是否存在其他风险。
检测需要一定的时间,请耐心等待。
常见问题
为何AI Red Teaming接入测试会失败?
如果连接测试失败,请检查以下内容:
API Key有效性:在对应平台(百炼/PAI/Dify)确认API Key状态是否正常、是否已过期。
Endpoint配置(仅Dify):确认访问地址格式正确(需包含协议头如https://),且地址可从当前网络访问。
网络连接:确认当前环境可访问模型服务域名,如遇到网络限制,请配置代理或添加白名单。
错误信息:根据测试返回的具体错误提示(如401未授权、404地址不存在、超时等)定位问题。