AI Red Teaming

更新时间:
复制 MD 格式

AI 应用部署到生产环境之前,需要验证模型和智能体是否存在提示词注入、数据泄露等安全风险。AI Red Teaming 是云安全中心 Agent 安全中心下的安全评估功能,对AI 模型和 AI 智能体执行安全评估,识别潜在攻击面和漏洞。支持以下两种检测对象类型:

功能概述

AI Red Teaming可用于检测接入的 AI 模型和 AI 智能体(Agent)是否存在安全风险。通过添加检测对象,可以对 AI 服务进行安全评估,识别潜在的攻击面和安全漏洞。

  • 支持的检测对象:

    • AI 模型:检测 OpenAI 兼容或 Anthropic 兼容的 AI 模型服务,检测通过 API 接入的大语言模型是否存在提示词注入、数据泄露等安全风险。

    • AI 智能体:检测部署在阿里云百炼、Dify、PAI 等平台上的智能体应用的安全性。

  • 检测结果说明:当前仅支持报告下载,不支持自动处理,不会同步至Agent 风险列表中。

AI模型检测

Agent 安全中心提供 AI Red Teaming 模型检测服务,对 AI Agent 相关的 AI 模型进行提示词注入、越狱攻击、混淆与走私攻击、指令与隐私泄露等安全风险检测。当前处于公测阶段,无需联系商务经理,即可享受服务。

  1. 进入检测配置页

    1. 访问云安全中心控制台-Agent安全中心-Agent概览,在页面左侧顶部,选择需防护资产所在的区域:中国内地非中国内地

    2. 单击中心区域的 AGENTS 图标,进入 Agent 列表页。

    3. 单击目标 Agent,在中央画布区域单击 AI Red Teaming 图标。

  2. 配置模型

    说明

    如需配置多个模型,对每个模型重复以下步骤。

    1. 在 AI Red Teaming 页面,单击添加模型

    2. 添加模型配置弹窗,配置以下信息。

      • 模型名称:系统将自动同步当前 Agent 关联的模型。

        重要
        • 模型检测范围,以下拉框显示列表数据为准。

        • 当前 Agent 无关联模型(MODEL 为 0),则可选模型列表为空,即无法进行 AI Red Teaming模型检测。

      • API Key:调用模型的 API Key。部分 Agent 获取方法如下:

      • Endpoint:仅 Dify 需配置,为模型供应商的 API 访问地址。联系对应模型供应商获取。

  3. 测试连接

    1. 配置完成后,单击测试连接

    2. 测试通过后,单击确定

      说明

      若测试失败,参考AI Red Teaming 接入测试失败如何处理?

  4. 扫描模型

    1. 选择扫描方式

      操作

      使用场景

      操作步骤

      立即扫描

      验证单个模型,适用于新增模型或单个模型配置变更后的快速验证。

      已配置模型列表中,单击目标模型区域的立即扫描

      全部检测

      批量检测全部模型,适用于定期全面安全检查或重大配置变更后的验证。

      单击已配置模型列表上方区域的全部检测

    2. 等待检测结果:模型检测需要一定时间,可在模型列表区域查看检测进度。

    3. 下载报告:检测完成后,单击目标模型区域的下载报告,可查看检测结果。

AI 模型和智能体全面检测

服务开通

AI Red Teaming 控制台当前处于邀测阶段,如需开通服务,请联系商务经理。

添加检测对象

  1. 登录云安全中心控制台

  2. 在左侧导航栏选择Agent 安全中心>AI Red Teaming.

  3. 在 AI Red Teaming 列表上方,单击添加检测对象

  4. 目标信息页面,配置以下参数。配置完成后,单击下一步进入连接参数配置。

    参数

    说明

    目标名称

    自定义名称,用于标识和管理检测对象。

    描述

    可选。输入检测对象的描述信息。

    目标类型

    AI 模型:用于兼容 OpenAI 或 Anthropic 接口的模型服务。

    AI 智能体:适用于部署在阿里云百炼、Dify 等平台上的智能体应用。

    说明

    选择不同类型后,后续步骤的参数配置会相应变化。

    接入方式

    仅当目标类型为AI 模型时显示。

    • OpenAI 兼容:适用于兼容 OpenAI Chat Completions API 格式的模型服务,如阿里云百炼、Azure OpenAI 及各种开源模型部署。

    • Anthropic 兼容:适用于兼容 Anthropic Messages API 格式的模型服务。

    快捷接入

    仅当目标类型为AI 智能体时显示。支持的平台有:阿里云百炼DifyAgent RunPAIAgentKit 等。

  5. 连接参数页签,根据目标类型,填写连接参数。配置完成后,单击下一步进入连接验证。

    AI 模型参数

    参数

    说明

    流式输出

    是否启用流式输出。默认启用。

    API地址

    AI 模型的 API 地址。

    如阿里云百炼的 OpenAI 兼容 API 地址为 https://dashscope.aliyuncs.com/compatible-mode/v1

    API Key

    用于认证的访问密钥。

    如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。

    模型名称

    待测试的模型名称。阿里云百炼示例:qwen-plusqwen-max

    平台

    从下拉列表中选择 AI 模型所属平台,如阿里云百炼。

    AI 智能体参数

    基础参数

    参数

    说明

    流式输出

    是否启用流式输出。

    重要

    PAI 默认开启流式输出,不支持关闭。

    API地址

    智能体的 API 地址。

    • PAI:格式为http://{uid}.{region}.pai-eas.aliyuncs.com/api/predict/{serviceName}/v1/chat/completions,将 {uid}/{region}/{serviceName} 替换为实际的PAI-EAS服务配置。

    • 阿里云百炼https://dashscope.aliyuncs.com/api/v1/apps/{appId}/completion,其中 {appId} 为百炼应用ID。

    • Dify:格式为http://{host}/v1/chat-messages,将 {host} 替换为实际的Dify服务地址。

    • Agent Run:格式为https://{workspaceId}.agentrun-data.{region}.aliyuncs.com/agent-runtimes/{agentName}/endpoints/Default/invocations/openai/v1/chat/completions,将 {workspaceId}/{region}/{agentName} 替换为实际的Agent Run配置。

    • AgentKit:格式https://{id}.apigateway-{region}.volceapi.com/invoke,将 {id} 和 {region} 替换为实际的 Agent Kit 网关配置。

    API Key

    用于认证的访问密钥。

    如阿里云百炼用户可在百炼控制台的 API Key 管理页面创建 API Key。

    模型名称

    仅 PAI 平台时显示,填写模型名称。

    高级设置(可选)

    参数

    说明

    HTTP方法

    请求方法:GET、POST 或 PUT。默认 POST。

    认证方式

    选择认证方式:无、Bearer Token 或自定义 Header。

    认证头名称

    仅认证方式为自定义 Header 时显示。填写自定义认证头名称。

    超时时间

    请求超时时间,单位毫秒。默认 30000。

    请求模版

    请求体模版,按平台预设。

    JSONPath

    响应解析路径,按平台预设。

    请求头

    自定义请求头,JSON 格式。

  6. 验证连接页签,确认已配置的目标详情后,单击连通性测试,验证配置的参数能否连接到 AI 服务。

    重要
    • 仅在连通性测试通过后才能单击保存,如测试失败,检查 API 地址、API Key 和模型名称是否正确。

    • 连通性测试并不真正执行检测任务,仅进行网络连接、API Key、API地址校验。

    • 测试中:按钮显示加载动画。

    • 测试通过:按钮变为成功状态,保存按钮变为可用。

    • 测试失败:在连接测试失败提示区域可查看失败原因。若因网络等原因导致失败,可单击重试按钮,重新测试。

配置检测强度(可选)

  1. 单击目标检测对象操作列的image下的配置检测任务

  2. 配置检测任务面板选择检测强度:

    重要

    系统默认使用快速检测

    检测强度

    说明

    适用场景

    快速检测

    使用常见基础攻击手法进行检测,预计耗时 10~20 分钟。

    适用于日常快速验证。

    标准检测

    在基础攻击手法之上额外覆盖进阶攻击手法,预计耗时 30~40 分钟。

    适用于上线前全面安全评估。

  3. 单击确定保存配置。

执行检测

重要
  • 当检测状态为准备中排队中检测中时,检测按钮不可用,需等待上一次检测完成。

  • 默认检测强度为快速检测

  1. 选择检测对象:

    • 单个检测:单击目标检测对象操作列的检测

    • 批量检测:勾选多个检测对象后,单击 AI Red Teaming 列表下方的检测

  2. 确认对话框中,单击确定

  3. 检测任务创建成功后,列表自动刷新,检测状态将更新。

查看检测任务及报告

  1. 单击目标检测对象操作列的image下的检测记录或单击检测次数列的数字。

  2. 检测记录面板可查看检测信息,支持按检测强度扫描进度查询。

    名称

    说明

    扫描任务编号

    检测任务的唯一编号。

    检测强度

    快速检测或标准检测。

    扫描发起时间

    检测任务的开始时间。

    扫描完成时间

    检测任务的完成时间。

    扫描任务进度

    任务执行进度,运行中时显示完成百分比。

    风险等级

    该次检测发现的风险等级。

  3. 查看报告:检测完成,单击任务操作列的查看报告,可查看智能体或模型的安全评估报告。包含概览、安全评分、攻击分布、风险矩阵、攻击手法分析、攻击意图分析、攻击案例详情、安全建议。

  4. 下载报告:检测完成,单击任务操作列的下载报告,可将安全报告下载到本地保存。

停止或删除检测任务

  1. 单击目标检测对象操作列的image下的检测记录或单击检测次数列的数字。

  2. 检测记录面板,单击目标任务操作列的停止删除

    操作

    适用范围

    执行效果

    停止

    仅未完成的任务

    终止扫描,保留检测记录。

    删除

    所有状态的任务

    终止扫描,并删除检测记录。

管理检测对象

修改检测对象

  1. 在 AI Red Teaming 列表页,单击目标检测对象操作列的image下的配置对象

  2. 配置对象面板中,支持修改流式输出开关、API地址API Key以及高级设置。参数说明,参见连接参数

  3. 修改完成后,单击连通性测试验证新配置。

    重要

    如测试失败,检查修改后的 API 地址、API Key 和模型名称是否正确,确认无误后重试。

  4. 测试通过后,单击确定保存修改。

删除检测对象

  1. 选择检测对象:

    • 单个检测:单击目标检测对象操作列的image删除

    • 批量检测:勾选多个检测对象后,单击 AI Red Teaming 列表下方的删除

  2. 确认对话框中,单击确定

  3. 删除成功后,该检测对象从列表中移除。

计费说明

公测期间免费使用。

常见问题

连通性测试失败怎么办?

如果 AI 模型类型的检测对象连通性测试失败,排查以下原因:

  • 网络不通:确认当前地域的云安全中心能够访问 AI 模型的 API 地址。如果 AI 模型部署于私有网络,需要配置网络连通策略。

  • API Key 无效或过期:确认 API Key 有效且未过期,可以尝试使用 curl 命令手动调用 API 确认。

  • 模型名称错误:确认模型名称与 AI 模型服务提供商提供的名称一致。

  • API 地址格式错误:确认 API 地址 URL 正确且可访问。