AI安全护栏上线安全运营Agent,该功能基于Multi-Agent协同架构,通过Lead Agent智能意图路由调度,目前覆盖在线测试、效果测评、策略调优(即将上线)等安全运营场景。本文向您介绍如何使用安全运营Agent。
1. 前提条件
步骤一:开通服务
前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。
步骤二:为RAM用户授权
在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey。
操作步骤
使用阿里云账号登录RAM控制台。
创建RAM用户。
具体操作,请参见创建RAM用户。
向RAM用户授权系统策略权限:
AliyunYundunGreenWebFullAccess。具体操作,请参见管理RAM用户的权限。
完成以上配置后,您可以使用RAM用户调用内容安全API。
2. 产品计费
安全运营Agent现处于公测阶段,在此期间暂不计费。为保障更多用户获得稳定的体验,公测期间将对调用QPS进行合理限制,请您合理规划使用。
3. 功能介绍
安全运营Agent基于开源框架构建,底层基于阿里云百炼大模型基础设施,由Lead Agent统一负责意图识别与任务调度,协同多智能体完成AI安全护栏场景下的在线测试、效果测评与策略调优。产品内置领域专属Skill作为可调度的原子能力单元,精准响应产品答疑与运营支持需求,高效支持复杂的安全运营场景需求。
安全运营Agent的主要功能如表格所示,通过多Agent协同打通从单条验证到策略优化的各场景安全效果运营。目前,所支持的安全运营场景正逐步扩充完善中。
Agent | 核心功能 | 唤起语 |
在线测试Agent(原在线测试) | 帮助用户即时体验安全护栏的实时拦截与放行效果,快速验证单条内容的防护效果是否符合预期。 |
|
效果测评Agent | 支持用户上传离线Excel样本文件,批量检测安全护栏的拦截准确率、误报率等核心指标,并自动生成结构化测评报告。 |
|
策略调优Agent | 基于用户上传的标注样本集,智能生成适配业务场景的安全护栏开关配置。若无标注则依据业内通用内容安全标准自动研判,用户确认后可一键应用,快速完成安全护栏的策略更新与生效。 | 说明 即将上线,敬请期待。 |
策略调优Agent专注于内容合规防护维度的策略深度优化,以适配该维度下因客户场景差异化带来的显著防护标准差异,从而提供精细化策略调优适配能力。策略调优Agent暂不支持其他防护维度的策略调整。
4. 操作指引
登录AI 安全护栏产品控制台。
在左侧导航栏,单击安全运营Agent。

您既可通过控制台首页的卡片快捷唤起预设指令,也可直接用自然语言描述运营需求,两种交互方式灵活可选。Lead Agent会实时解析您的意图,自动调度匹配的安全运营专Agent响应您的问题或执行相应任务。
在与安全运营Agent交互过程中,您无需记忆固定话术或手动切换功能入口,即时在同一对话中,您也只需以自然语言描述需求,系统会通过意图驱动的智能调度机制,自动协调多个安全运营Agent无缝响应各类问题与任务。
4.1 主功能Agent
1)在线测试Agent
在线测试Agent(原在线测试)首先会通过意图澄清收集必要的参数信息,并在测试完毕后以结构化方式呈现在线测试结果。


2)效果测评Agent
效果测评Agent会主动通过意图澄清引导您提供测试样本及待评测服务,确保评测输入准确完整。评测完成后,系统将直观呈现核心准召指标(需样本含标注结果)、原始结果明细及AI分析报告。
为保障评测效率与系统稳定性,当前单次上传样本量上限为5000条。同时,评测耗时随样本量增加而相应延长,建议您根据实际需求合理规划样本规模,以获得更及时的反馈体验。若需处理更大规模数据,可采取分批提交的方式。

3)策略调优Agent
即将上线,敬请期待。
4.2 Agent任务管理
您可点击左栏展开任务管理,进行会话管理。
为确保流畅稳定的交互体验,当前安全运营Agent单UID最多支持3个会话并行运行。当并发数达到上限时,新任务将自动进入排队队列,待现有会话释放资源后即可无缝接续,避免长时间等待或响应延迟。

4.3 Agent产物
您可点击右栏展开任务监控,在此可看到该会话内的所有产物,在此您可以进行产物预览、下载及定位到对话中的位置等操作。
