AI 应用部署到生产环境之前,需要验证模型和智能体是否存在提示词注入、数据泄露等安全风险。AI Red Teaming 是云安全中心 Agent 安全中心下的安全评估功能,对AI 模型和 AI 智能体执行安全评估,识别潜在攻击面和漏洞。支持以下两种检测对象类型:
功能概述
AI Red Teaming可用于检测接入的 AI 模型和 AI 智能体(Agent)是否存在安全风险。通过添加检测对象,可以对 AI 服务进行安全评估,识别潜在的攻击面和安全漏洞。
支持的检测对象:
AI 模型:检测 OpenAI 兼容或 Anthropic 兼容的 AI 模型服务,检测通过 API 接入的大语言模型是否存在提示词注入、数据泄露等安全风险。
AI 智能体:检测部署在阿里云百炼、Dify、PAI 等平台上的智能体应用的安全性。
检测结果说明:当前仅支持报告下载,不支持自动处理,不会同步至Agent 风险列表中。
AI模型检测
Agent 安全中心提供 AI Red Teaming 模型检测服务,对 AI Agent 相关的 AI 模型进行提示词注入、越狱攻击、混淆与走私攻击、指令与隐私泄露等安全风险检测。当前处于公测阶段,无需联系商务经理,即可享受服务。
进入检测配置页
访问云安全中心控制台-Agent安全中心-Agent概览,在页面左侧顶部,选择需防护资产所在的区域:中国内地或非中国内地。
单击中心区域的 AGENTS 图标,进入 Agent 列表页。
单击目标 Agent,在中央画布区域单击 AI Red Teaming 图标。
配置模型
说明如需配置多个模型,对每个模型重复以下步骤。
在 AI Red Teaming 页面,单击添加模型。
在添加模型配置弹窗,配置以下信息。
模型名称:系统将自动同步当前 Agent 关联的模型。
重要模型检测范围,以下拉框显示列表数据为准。
当前 Agent 无关联模型(MODEL 为 0),则可选模型列表为空,即无法进行 AI Red Teaming模型检测。
API Key:调用模型的 API Key。部分 Agent 获取方法如下:
百炼:参考获取API Key。
PAI:参考获取访问地址和 Token。
Dify:联系对应模型供应商获取 API Key。
Endpoint:仅 Dify 需配置,为模型供应商的 API 访问地址。联系对应模型供应商获取。
测试连接
配置完成后,单击测试连接。
测试通过后,单击确定。
说明若测试失败,参考AI Red Teaming 接入测试失败如何处理?。
扫描模型
选择扫描方式
操作
使用场景
操作步骤
立即扫描
验证单个模型,适用于新增模型或单个模型配置变更后的快速验证。
在已配置模型列表中,单击目标模型区域的立即扫描。
全部检测
批量检测全部模型,适用于定期全面安全检查或重大配置变更后的验证。
单击已配置模型列表上方区域的全部检测。
等待检测结果:模型检测需要一定时间,可在模型列表区域查看检测进度。
下载报告:检测完成后,单击目标模型区域的下载报告,可查看检测结果。
AI 模型和智能体全面检测
服务开通
AI Red Teaming 控制台当前处于邀测阶段,如需开通服务,请联系商务经理。
添加检测对象
登录云安全中心控制台。
在左侧导航栏选择Agent 安全中心>AI Red Teaming.
在 AI Red Teaming 列表上方,单击添加检测对象。
在目标信息页面,配置以下参数。配置完成后,单击下一步进入连接参数配置。
参数
说明
目标名称
自定义名称,用于标识和管理检测对象。
描述
可选。输入检测对象的描述信息。
目标类型
AI 模型:用于兼容 OpenAI 或 Anthropic 接口的模型服务。
AI 智能体:适用于部署在阿里云百炼、Dify 等平台上的智能体应用。
说明选择不同类型后,后续步骤的参数配置会相应变化。
接入方式
仅当目标类型为AI 模型时显示。
OpenAI 兼容:适用于兼容 OpenAI Chat Completions API 格式的模型服务,如阿里云百炼、Azure OpenAI 及各种开源模型部署。
Anthropic 兼容:适用于兼容 Anthropic Messages API 格式的模型服务。
快捷接入
仅当目标类型为AI 智能体时显示。支持的平台有:阿里云百炼、Dify、Agent Run、PAI、AgentKit 等。
在连接参数页签,根据目标类型,填写连接参数。配置完成后,单击下一步进入连接验证。
AI 模型参数
参数
说明
流式输出
是否启用流式输出。默认启用。
API地址
AI 模型的 API 地址。
如阿里云百炼的 OpenAI 兼容 API 地址为
https://dashscope.aliyuncs.com/compatible-mode/v1。API Key
用于认证的访问密钥。
如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。
模型名称
待测试的模型名称。阿里云百炼示例:
qwen-plus、qwen-max。平台
从下拉列表中选择 AI 模型所属平台,如阿里云百炼。
AI 智能体参数
基础参数
参数
说明
流式输出
是否启用流式输出。
重要PAI 默认开启流式输出,不支持关闭。
API地址
智能体的 API 地址。
PAI:格式为
http://{uid}.{region}.pai-eas.aliyuncs.com/api/predict/{serviceName}/v1/chat/completions,将 {uid}/{region}/{serviceName} 替换为实际的PAI-EAS服务配置。阿里云百炼:
https://dashscope.aliyuncs.com/api/v1/apps/{appId}/completion,其中{appId}为百炼应用ID。Dify:格式为http://{host}/v1/chat-messages,将 {host} 替换为实际的Dify服务地址。
Agent Run:格式为
https://{workspaceId}.agentrun-data.{region}.aliyuncs.com/agent-runtimes/{agentName}/endpoints/Default/invocations/openai/v1/chat/completions,将 {workspaceId}/{region}/{agentName} 替换为实际的Agent Run配置。AgentKit:格式
https://{id}.apigateway-{region}.volceapi.com/invoke,将 {id} 和 {region} 替换为实际的 Agent Kit 网关配置。
API Key
用于认证的访问密钥。
如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。
模型名称
仅 PAI 平台时显示,填写模型名称。
高级设置(可选)
参数
说明
HTTP方法
请求方法:GET、POST 或 PUT。默认 POST。
认证方式
选择认证方式:无、Bearer Token 或自定义 Header。
认证头名称
仅认证方式为自定义 Header 时显示。填写自定义认证头名称。
超时时间
请求超时时间,单位毫秒。默认 30000。
请求模版
请求体模版,按平台预设。
JSONPath
响应解析路径,按平台预设。
请求头
自定义请求头,JSON 格式。
在验证连接页签,确认已配置的目标详情后,单击连通性测试,验证配置的参数能否连接到 AI 服务。
重要仅在连通性测试通过后才能单击保存,如测试失败,检查 API 地址、API Key 和模型名称是否正确。
连通性测试并不真正执行检测任务,仅进行网络连接、API Key、API地址校验。
测试中:按钮显示加载动画。
测试通过:按钮变为成功状态,保存按钮变为可用。
测试失败:在连接测试失败提示区域可查看失败原因。若因网络等原因导致失败,可单击重试按钮,重新测试。
配置检测强度(可选)
单击目标检测对象操作列的
下的配置检测任务。在配置检测任务面板选择检测强度:
重要系统默认使用快速检测。
检测强度
说明
适用场景
快速检测
使用常见基础攻击手法进行检测,预计耗时 10~20 分钟。
适用于日常快速验证。
标准检测
在基础攻击手法之上额外覆盖进阶攻击手法,预计耗时 30~40 分钟。
适用于上线前全面安全评估。
单击确定保存配置。
执行检测
当检测状态为准备中、排队中或检测中时,检测按钮不可用,需等待上一次检测完成。
默认检测强度为快速检测。
选择检测对象:
单个检测:单击目标检测对象操作列的检测。
批量检测:勾选多个检测对象后,单击 AI Red Teaming 列表下方的检测。
确认对话框中,单击确定。
检测任务创建成功后,列表自动刷新,检测状态将更新。
查看检测任务及报告
单击目标检测对象操作列的
下的检测记录或单击检测次数列的数字。在检测记录面板可查看检测信息,支持按检测强度和扫描进度查询。
名称
说明
扫描任务编号
检测任务的唯一编号。
检测强度
快速检测或标准检测。
扫描发起时间
检测任务的开始时间。
扫描完成时间
检测任务的完成时间。
扫描任务进度
任务执行进度,运行中时显示完成百分比。
风险等级
该次检测发现的风险等级。
查看报告:检测完成,单击任务操作列的查看报告,可查看智能体或模型的安全评估报告。包含概览、安全评分、攻击分布、风险矩阵、攻击手法分析、攻击意图分析、攻击案例详情、安全建议。
下载报告:检测完成,单击任务操作列的下载报告,可将安全报告下载到本地保存。
停止或删除检测任务
单击目标检测对象操作列的
下的检测记录或单击检测次数列的数字。在检测记录面板,单击目标任务操作列的停止或删除。
操作
适用范围
执行效果
停止
仅未完成的任务
终止扫描,保留检测记录。
删除
所有状态的任务
终止扫描,并删除检测记录。
管理检测对象
修改检测对象
在 AI Red Teaming 列表页,单击目标检测对象操作列的
下的配置对象。在配置对象面板中,支持修改流式输出开关、API地址、API Key以及高级设置。参数说明,参见连接参数。
修改完成后,单击连通性测试验证新配置。
重要如测试失败,检查修改后的 API 地址、API Key 和模型名称是否正确,确认无误后重试。
测试通过后,单击确定保存修改。
删除检测对象
选择检测对象:
单个检测:单击目标检测对象操作列的
下删除。批量检测:勾选多个检测对象后,单击 AI Red Teaming 列表下方的删除。
确认对话框中,单击确定。
删除成功后,该检测对象从列表中移除。
计费说明
公测期间免费使用。
常见问题
连通性测试失败怎么办?
如果 AI 模型类型的检测对象连通性测试失败,排查以下原因:
网络不通:确认当前地域的云安全中心能够访问 AI 模型的 API 地址。如果 AI 模型部署于私有网络,需要配置网络连通策略。
API Key 无效或过期:确认 API Key 有效且未过期,可以尝试使用 curl 命令手动调用 API 确认。
模型名称错误:确认模型名称与 AI 模型服务提供商提供的名称一致。
API 地址格式错误:确认 API 地址 URL 正确且可访问。