如何使用安全运营Agent

更新时间:
复制为 MD 格式

AI安全护栏上线安全运营Agent,该功能基于Multi-Agent协同架构,通过Lead Agent智能意图路由调度,目前覆盖在线测试、效果测评、策略调优(即将上线)等安全运营场景。本文向您介绍如何使用安全运营Agent。

1. 前提条件

步骤一:开通服务

前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。

步骤二:为RAM用户授权

在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey

操作步骤

  1. 使用阿里云账号登录RAM控制台

  2. 创建RAM用户。

    具体操作,请参见创建RAM用户

  3. RAM用户授权系统策略权限:AliyunYundunGreenWebFullAccess

    具体操作,请参见管理RAM用户的权限

    完成以上配置后,您可以使用RAM用户调用内容安全API。

2. 产品计费

安全运营Agent现处于公测阶段,在此期间暂不计费。为保障更多用户获得稳定的体验,公测期间将对调用QPS进行合理限制,请您合理规划使用。

3. 功能介绍

安全运营Agent基于开源框架构建,底层基于阿里云百炼大模型基础设施,由Lead Agent统一负责意图识别与任务调度,协同多智能体完成AI安全护栏场景下的在线测试、效果测评与策略调优。产品内置领域专属Skill作为可调度的原子能力单元,精准响应产品答疑与运营支持需求,高效支持复杂的安全运营场景需求。

安全运营Agent的主要功能如表格所示,通过多Agent协同打通从单条验证到策略优化的各场景安全效果运营。目前,所支持的安全运营场景正逐步扩充完善中。

Agent

核心功能

唤起语

在线测试Agent(原在线测试)

帮助用户即时体验安全护栏的实时拦截与放行效果,快速验证单条内容的防护效果是否符合预期。

  • 帮我测一下这条样本测拦截效果。

  • 我想实时验证一下AI安全护栏对这句话的识别效果

效果测评Agent

支持用户上传离线Excel样本文件,批量检测安全护栏的拦截准确率、误报率等核心指标,并自动生成结构化测评报告。

  • 帮我进行离线PoC

  • 分析一下这份离线测试数据,看看当前护栏的效果。

策略调优Agent

基于用户上传的标注样本集,智能生成适配业务场景的安全护栏开关配置。若无标注则依据业内通用内容安全标准自动研判,用户确认后可一键应用,快速完成安全护栏的策略更新与生效。

说明

即将上线,敬请期待。

重要

策略调优Agent专注于内容合规防护维度的策略深度优化,以适配该维度下因客户场景差异化带来的显著防护标准差异,从而提供精细化策略调优适配能力。策略调优Agent暂不支持其他防护维度的策略调整。

4. 操作指引

  1. 登录AI 安全护栏产品控制台

  2. 在左侧导航栏,单击安全运营Agent

    Snipaste_2026-06-02_00-10-19

  3. 您既可通过控制台首页的卡片快捷唤起预设指令,也可直接用自然语言描述运营需求,两种交互方式灵活可选。Lead Agent会实时解析您的意图,自动调度匹配的安全运营专Agent响应您的问题或执行相应任务。

说明

在与安全运营Agent交互过程中,您无需记忆固定话术或手动切换功能入口,即时在同一对话中,您也只需以自然语言描述需求,系统会通过意图驱动的智能调度机制,自动协调多个安全运营Agent无缝响应各类问题与任务。

4.1 主功能Agent

1)在线测试Agent

在线测试Agent(原在线测试)首先会通过意图澄清收集必要的参数信息,并在测试完毕后以结构化方式呈现在线测试结果。

1111

2222

2)效果测评Agent

效果测评Agent会主动通过意图澄清引导您提供测试样本及待评测服务,确保评测输入准确完整。评测完成后,系统将直观呈现核心准召指标(需样本含标注结果)、原始结果明细及AI分析报告。

说明

为保障评测效率与系统稳定性,当前单次上传样本量上限为5000条。同时,评测耗时随样本量增加而相应延长,建议您根据实际需求合理规划样本规模,以获得更及时的反馈体验。若需处理更大规模数据,可采取分批提交的方式。

4444

3)策略调优Agent

即将上线,敬请期待。

4.2 Agent任务管理

您可点击左栏展开任务管理,进行会话管理。

说明

为确保流畅稳定的交互体验,当前安全运营AgentUID最多支持3个会话并行运行。当并发数达到上限时,新任务将自动进入排队队列,待现有会话释放资源后即可无缝接续,避免长时间等待或响应延迟。

5555

4.3 Agent产物

您可点击右栏展开任务监控,在此可看到该会话内的所有产物,在此您可以进行产物预览、下载及定位到对话中的位置等操作。

6666