AI安全护栏上线安全运营Agent,该功能基于Multi-Agent协同架构,通过Lead Agent智能意图路由调度,目前覆盖在线测试、效果测评、策略调优等安全运营场景。本文向您介绍如何使用安全运营Agent。
1. 前提条件
步骤一:开通服务
前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。
步骤二:为RAM用户授权
在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey。
操作步骤
使用阿里云账号登录RAM控制台。
创建RAM用户。
具体操作,请参见创建RAM用户。
向RAM用户授权系统策略权限:
AliyunYundunGreenWebFullAccess。具体操作,请参见管理RAM用户的权限。
完成以上配置后,您可以使用RAM用户调用内容安全API。
2. 产品计费
安全运营Agent现处于公测阶段,在此期间暂不计费。为保障更多用户获得稳定的体验,公测期间将对调用QPS进行合理限制,请您合理规划使用。
3. 功能介绍
安全运营Agent基于开源框架构建,底层基于阿里云百炼大模型基础设施,由Lead Agent统一负责意图识别与任务调度,协同多智能体完成AI安全护栏场景下的在线测试、效果测评与策略调优。产品内置领域专属Skill作为可调度的原子能力单元,精准响应产品答疑与运营支持需求,高效支持复杂的安全运营场景需求。
安全运营Agent的主要功能如表格所示,通过多Agent协同打通从单条验证到策略优化的各场景安全效果运营。目前,所支持的安全运营场景正逐步扩充完善中。
Agent | 核心功能 | 唤起语 |
在线测试Agent(原在线测试) | 帮助用户即时体验安全护栏的实时拦截与放行效果,快速验证单条内容的防护效果是否符合预期。 |
|
效果测评Agent | 支持用户上传离线Excel样本文件,批量检测安全护栏的拦截准确率、误报率等核心指标,并自动生成结构化测评报告。 |
|
策略调优Agent | 基于用户上传的标注样本集,智能生成适配业务场景的安全护栏开关配置,用户确认后可一键应用,快速完成安全护栏的策略更新与生效。 |
|
策略调优Agent专注于内容合规防护维度的策略深度优化,以适配该维度下因客户场景差异化带来的显著防护标准差异,从而提供精细化策略调优适配能力。策略调优Agent暂不支持其他防护维度的策略调整。
同时,为保障策略调优 Agent 的高效运行,建议样本量控制在 200~5000 条之间,黑白样本比例接近 1:1。在满足此条件的前提下,样本数量越多,调优效果通常越好。
4. 操作指引
登录AI 安全护栏产品控制台。
在左侧导航栏,单击安全运营Agent。
您既可通过控制台首页的卡片快捷唤起预设指令,也可直接用自然语言描述运营需求,两种交互方式灵活可选。Lead Agent会实时解析您的意图,自动调度匹配的安全运营专Agent响应您的问题或执行相应任务。
在与安全运营Agent交互过程中,您无需记忆固定话术或手动切换功能入口,即时在同一对话中,您也只需以自然语言描述需求,系统会通过意图驱动的智能调度机制,自动协调多个安全运营Agent无缝响应各类问题与任务。
4.1 主功能Agent
1)在线测试Agent
在线测试Agent(原在线测试)旨在帮助您即时体验安全护栏的实时拦截与放行效果,在此您可选择要测试的服务及测试样本,测试完毕后会以结构化方式呈现在线测试结果。
2)效果测评Agent
效果测评Agent旨在帮您批量检测所选择服务的拦截准确率、误报率等核心效果指标,并自动生成结构化测评报告。
为保障评测效率与系统稳定性,当前单次上传样本量上限为5000条。同时,评测耗时随样本量增加而相应延长,建议您根据实际需求合理规划样本规模,以获得更及时的反馈体验。若需处理更大规模数据,可采取分批提交的方式。
样本测评优的样本模板可在会话中下载,其中,content(待检测样本列)列为必传列。
3)策略调优Agent
策略调优Agent可以为您智能生成适配业务场景的安全护栏开关配置,这需要您上传有标注的样本集,AI会基于上传的标注样本集,智能地进行样本特征和标注标准的学习,然后为您生成一份适配于您业务场景的开关配置,点击确认应用配置后可一键生效应用,快速完成安全护栏的策略更新与生效。
为保障策略调优效率、系统稳定性与调优效果,当前单次上传样本量范围建议在200~5000条内,且黑白样本比例建议接近1:1,在满足此条件下,样本数量越多,样本分布越均衡,通常会有越好的调优效果。
策略调优的样本模板可在会话中下载,其中,content(待检测样本列)、label(标注样本列,1为违规、0为正常)两列为必传列。
4.2 Agent任务管理
您可点击左栏展开任务管理,进行会话管理。
为确保流畅稳定的交互体验,当前安全运营Agent单UID最多支持3个会话并行运行。当并发数达到上限时,新任务将自动进入排队队列,待现有会话释放资源后即可无缝接续,避免长时间等待或响应延迟。
4.3 Agent产物
您可点击右栏展开任务监控,在此可看到该会话内的所有产物,在此您可以进行产物预览、下载及定位到对话中的位置等操作。