AI Red Teaming-云安全中心(Security Center)-阿里云帮助中心

AI 应用部署到生产环境之前，需要验证模型和智能体是否存在提示词注入、数据泄露等安全风险。AI Red Teaming 是云安全中心 Agent 安全中心下的安全评估功能，对AI 模型和 AI 智能体执行安全评估，识别潜在攻击面和漏洞。支持以下两种检测对象类型：

功能概述

AI Red Teaming可用于检测接入的 AI 模型和 AI 智能体（Agent）是否存在安全风险。通过添加检测对象，可以对 AI 服务进行安全评估，识别潜在的攻击面和安全漏洞。

支持的检测对象：
- AI 模型：检测 OpenAI 兼容或 Anthropic 兼容的 AI 模型服务，检测通过 API 接入的大语言模型是否存在提示词注入、数据泄露等安全风险。
- AI 智能体：检测部署在阿里云百炼、Dify、PAI 等平台上的智能体应用的安全性。
检测结果说明：当前仅支持报告下载，不支持自动处理，不会同步至Agent 风险列表中。

AI模型检测

Agent 安全中心提供 AI Red Teaming 模型检测服务，对 AI Agent 相关的 AI 模型进行提示词注入、越狱攻击、混淆与走私攻击、指令与隐私泄露等安全风险检测。当前处于公测阶段，无需联系商务经理，即可享受服务。

进入检测配置页
1. 访问云安全中心控制台-Agent安全中心-Agent概览，在页面左侧顶部，选择需防护资产所在的区域：中国内地或非中国内地。
2. 单击中心区域的 AGENTS 图标，进入 Agent 列表页。
3. 单击目标 Agent，在中央画布区域单击 AI Red Teaming 图标。
配置模型
说明
如需配置多个模型，对每个模型重复以下步骤。
1. 在 AI Red Teaming 页面，单击添加模型。
2. 在添加模型配置弹窗，配置以下信息。
  - 模型名称：系统将自动同步当前 Agent 关联的模型。
    重要
    模型检测范围，以下拉框显示列表数据为准。
    当前 Agent 无关联模型（MODEL 为 0），则可选模型列表为空，即无法进行 AI Red Teaming模型检测。
  - API Key：调用模型的 API Key。部分 Agent 获取方法如下：
    - 百炼：参考获取API Key。
    - PAI：参考获取访问地址和 Token。
    - Dify：联系对应模型供应商获取 API Key。
  - Endpoint：仅 Dify 需配置，为模型供应商的 API 访问地址。联系对应模型供应商获取。
测试连接
1. 配置完成后，单击测试连接。
2. 测试通过后，单击确定。
  说明
  若测试失败，参考AI Red Teaming 接入测试失败如何处理？。

扫描模型

选择扫描方式

操作	使用场景	操作步骤
立即扫描	验证单个模型，适用于新增模型或单个模型配置变更后的快速验证。	在已配置模型列表中，单击目标模型区域的立即扫描。
全部检测	批量检测全部模型，适用于定期全面安全检查或重大配置变更后的验证。	单击已配置模型列表上方区域的全部检测。

等待检测结果：模型检测需要一定时间，可在模型列表区域查看检测进度。
下载报告：检测完成后，单击目标模型区域的下载报告，可查看检测结果。

AI 模型和智能体全面检测

服务开通

AI Red Teaming 控制台当前处于邀测阶段，如需开通服务，请联系商务经理。

添加检测对象

登录云安全中心控制台。
在左侧导航栏选择Agent 安全中心>AI Red Teaming.
在 AI Red Teaming 列表上方，单击添加检测对象。

在目标信息页面，配置以下参数。配置完成后，单击下一步进入连接参数配置。

参数	说明
目标名称	自定义名称，用于标识和管理检测对象。
描述	可选。输入检测对象的描述信息。
目标类型	AI 模型：用于兼容 OpenAI 或 Anthropic 接口的模型服务。 AI 智能体：适用于部署在阿里云百炼、Dify 等平台上的智能体应用。说明选择不同类型后，后续步骤的参数配置会相应变化。
接入方式	仅当目标类型为AI 模型时显示。 OpenAI 兼容：适用于兼容 OpenAI Chat Completions API 格式的模型服务，如阿里云百炼、Azure OpenAI 及各种开源模型部署。 Anthropic 兼容：适用于兼容 Anthropic Messages API 格式的模型服务。
快捷接入	仅当目标类型为AI 智能体时显示。支持的平台有：阿里云百炼、Dify、Agent Run、PAI、AgentKit 等。

在连接参数页签，根据目标类型，填写连接参数。配置完成后，单击下一步进入连接验证。

AI 模型参数

参数	说明
流式输出	是否启用流式输出。默认启用。
API地址	AI 模型的 API 地址。如阿里云百炼的 OpenAI 兼容 API 地址为 `https://dashscope.aliyuncs.com/compatible-mode/v1`。
API Key	用于认证的访问密钥。如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。
模型名称	待测试的模型名称。阿里云百炼示例：`qwen-plus`、`qwen-max`。
平台	从下拉列表中选择 AI 模型所属平台，如阿里云百炼。

AI 智能体参数

基础参数

参数	说明
流式输出	是否启用流式输出。重要 PAI 默认开启流式输出，不支持关闭。
API地址	智能体的 API 地址。 PAI：格式为`http://{uid}.{region}.pai-eas.aliyuncs.com/api/predict/{serviceName}/v1/chat/completions`，将 {uid}/{region}/{serviceName} 替换为实际的PAI-EAS服务配置。阿里云百炼：`https://dashscope.aliyuncs.com/api/v1/apps/{appId}/completion`，其中 `{appId}` 为百炼应用ID。 Dify：格式为http://{host}/v1/chat-messages，将 {host} 替换为实际的Dify服务地址。 Agent Run：格式为`https://{workspaceId}.agentrun-data.{region}.aliyuncs.com/agent-runtimes/{agentName}/endpoints/Default/invocations/openai/v1/chat/completions`，将 {workspaceId}/{region}/{agentName} 替换为实际的Agent Run配置。 AgentKit：格式`https://{id}.apigateway-{region}.volceapi.com/invoke`，将 {id} 和 {region} 替换为实际的 Agent Kit 网关配置。
API Key	用于认证的访问密钥。如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。
模型名称	仅 PAI 平台时显示，填写模型名称。

高级设置（可选）

参数	说明
HTTP方法	请求方法：GET、POST 或 PUT。默认 POST。
认证方式	选择认证方式：无、Bearer Token 或自定义 Header。
认证头名称	仅认证方式为自定义 Header 时显示。填写自定义认证头名称。
超时时间	请求超时时间，单位毫秒。默认 30000。
请求模版	请求体模版，按平台预设。
JSONPath	响应解析路径，按平台预设。
请求头	自定义请求头，JSON 格式。

在验证连接页签，确认已配置的目标详情后，单击连通性测试，验证配置的参数能否连接到 AI 服务。
重要
- 仅在连通性测试通过后才能单击保存，如测试失败，检查 API 地址、API Key 和模型名称是否正确。
- 连通性测试并不真正执行检测任务，仅进行网络连接、API Key、API地址校验。
- 测试中：按钮显示加载动画。
- 测试通过：按钮变为成功状态，保存按钮变为可用。
- 测试失败：在连接测试失败提示区域可查看失败原因。若因网络等原因导致失败，可单击重试按钮，重新测试。

配置检测强度（可选）

单击目标检测对象操作列的下的配置检测任务。

在配置检测任务面板选择检测强度：

重要

系统默认使用快速检测。

检测强度	说明	适用场景
快速检测	使用常见基础攻击手法进行检测，预计耗时 10～20 分钟。	适用于日常快速验证。
标准检测	在基础攻击手法之上额外覆盖进阶攻击手法，预计耗时 30～40 分钟。	适用于上线前全面安全评估。

单击确定保存配置。

执行检测

重要

当检测状态为准备中、排队中或检测中时，检测按钮不可用，需等待上一次检测完成。
默认检测强度为快速检测。

选择检测对象：
- 单个检测：单击目标检测对象操作列的检测。
- 批量检测：勾选多个检测对象后，单击 AI Red Teaming 列表下方的检测。
确认对话框中，单击确定。
检测任务创建成功后，列表自动刷新，检测状态将更新。

查看检测任务及报告

单击目标检测对象操作列的下的检测记录或单击检测次数列的数字。

在检测记录面板可查看检测信息，支持按检测强度和扫描进度查询。

名称	说明
扫描任务编号	检测任务的唯一编号。
检测强度	快速检测或标准检测。
扫描发起时间	检测任务的开始时间。
扫描完成时间	检测任务的完成时间。
扫描任务进度	任务执行进度，运行中时显示完成百分比。
风险等级	该次检测发现的风险等级。

查看报告：检测完成，单击任务操作列的查看报告，可查看智能体或模型的安全评估报告。包含概览、安全评分、攻击分布、风险矩阵、攻击手法分析、攻击意图分析、攻击案例详情、安全建议。
下载报告：检测完成，单击任务操作列的下载报告，可将安全报告下载到本地保存。

停止或删除检测任务

单击目标检测对象操作列的下的检测记录或单击检测次数列的数字。
在检测记录面板，单击目标任务操作列的停止或删除。
操作
适用范围
执行效果
停止
仅未完成的任务
终止扫描，保留检测记录。
删除
所有状态的任务
终止扫描，并删除检测记录。

管理检测对象

修改检测对象

在 AI Red Teaming 列表页，单击目标检测对象操作列的下的配置对象。
在配置对象面板中，支持修改流式输出开关、API地址、API Key以及高级设置。参数说明，参见连接参数。
修改完成后，单击连通性测试验证新配置。
重要
如测试失败，检查修改后的 API 地址、API Key 和模型名称是否正确，确认无误后重试。
测试通过后，单击确定保存修改。

删除检测对象

选择检测对象：
- 单个检测：单击目标检测对象操作列的下删除。
- 批量检测：勾选多个检测对象后，单击 AI Red Teaming 列表下方的删除。
确认对话框中，单击确定。
删除成功后，该检测对象从列表中移除。

计费说明

公测期间免费使用。

常见问题

连通性测试失败怎么办？

如果 AI 模型类型的检测对象连通性测试失败，排查以下原因：

网络不通：确认当前地域的云安全中心能够访问 AI 模型的 API 地址。如果 AI 模型部署于私有网络，需要配置网络连通策略。
API Key 无效或过期：确认 API Key 有效且未过期，可以尝试使用 curl 命令手动调用 API 确认。
模型名称错误：确认模型名称与 AI 模型服务提供商提供的名称一致。
API 地址格式错误：确认 API 地址 URL 正确且可访问。

操作	适用范围	执行效果
停止	仅未完成的任务	终止扫描，保留检测记录。
删除	所有状态的任务	终止扫描，并删除检测记录。