如何使用安全运营Agent

更新时间:
复制 MD 格式

AI安全护栏上线安全运营Agent,该功能基于Multi-Agent协同架构,通过Lead Agent智能意图路由调度,目前覆盖在线测试、效果测评、策略调优等安全运营场景。本文向您介绍如何使用安全运营Agent。

1. 前提条件

步骤一:开通服务

前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。

步骤二:为RAM用户授权

在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey

操作步骤

  1. 使用阿里云账号登录RAM控制台

  2. 创建RAM用户。

    具体操作,请参见创建RAM用户

  3. RAM用户授权系统策略权限:AliyunYundunGreenWebFullAccess

    具体操作,请参见管理RAM用户的权限

    完成以上配置后,您可以使用RAM用户调用内容安全API。

2. 产品计费

安全运营Agent现处于公测阶段,在此期间暂不计费。为保障更多用户获得稳定的体验,公测期间将对调用QPS进行合理限制,请您合理规划使用。

3. 功能介绍

安全运营Agent基于开源框架构建,底层基于阿里云百炼大模型基础设施,由Lead Agent统一负责意图识别与任务调度,协同多智能体完成AI安全护栏场景下的在线测试、效果测评与策略调优。产品内置领域专属Skill作为可调度的原子能力单元,精准响应产品答疑与运营支持需求,高效支持复杂的安全运营场景需求。

安全运营Agent的主要功能如表格所示,通过多Agent协同打通从单条验证到策略优化的各场景安全效果运营。目前,所支持的安全运营场景正逐步扩充完善中。

Agent

核心功能

唤起语

在线测试Agent(原在线测试)

帮助用户即时体验安全护栏的实时拦截与放行效果,快速验证单条内容的防护效果是否符合预期。

  • 帮我测一下这条样本测拦截效果。

  • 我想实时验证一下AI安全护栏对这句话的识别效果

效果测评Agent

支持用户上传离线Excel样本文件,批量检测安全护栏的拦截准确率、误报率等核心指标,并自动生成结构化测评报告。

  • 帮我进行离线PoC

  • 分析一下这份离线测试数据,看看当前护栏的效果。

策略调优Agent

基于用户上传的标注样本集,智能生成适配业务场景的安全护栏开关配置,用户确认后可一键应用,快速完成安全护栏的策略更新与生效。

  • 我有一批标注好的样本集,根据标注情况对齐我的审核标准并帮我完成策略调优

  • 帮我进行策略调优

重要
  • 策略调优Agent专注于内容合规防护维度的策略深度优化,以适配该维度下因客户场景差异化带来的显著防护标准差异,从而提供精细化策略调优适配能力。策略调优Agent暂不支持其他防护维度的策略调整。

  • 同时,为保障策略调优 Agent 的高效运行,建议样本量控制在 200~5000 条之间,黑白样本比例接近 1:1。在满足此条件的前提下,样本数量越多,调优效果通常越好。

4. 操作指引

  1. 登录AI 安全护栏产品控制台

  2. 在左侧导航栏,单击安全运营Agent

  3. 您既可通过控制台首页的卡片快捷唤起预设指令,也可直接用自然语言描述运营需求,两种交互方式灵活可选。Lead Agent会实时解析您的意图,自动调度匹配的安全运营专Agent响应您的问题或执行相应任务。

说明

在与安全运营Agent交互过程中,您无需记忆固定话术或手动切换功能入口,即时在同一对话中,您也只需以自然语言描述需求,系统会通过意图驱动的智能调度机制,自动协调多个安全运营Agent无缝响应各类问题与任务。

4.1 主功能Agent

1)在线测试Agent

在线测试Agent(原在线测试)旨在帮助您即时体验安全护栏的实时拦截与放行效果,在此您可选择要测试的服务及测试样本,测试完毕后会以结构化方式呈现在线测试结果。

2)效果测评Agent

效果测评Agent旨在帮您批量检测所选择服务的拦截准确率、误报率等核心效果指标,并自动生成结构化测评报告。

说明
  1. 为保障评测效率与系统稳定性,当前单次上传样本量上限为5000条。同时,评测耗时随样本量增加而相应延长,建议您根据实际需求合理规划样本规模,以获得更及时的反馈体验。若需处理更大规模数据,可采取分批提交的方式。

  2. 样本测评优的样本模板可在会话中下载,其中,content(待检测样本列)列为必传列。

3)策略调优Agent

策略调优Agent可以为您智能生成适配业务场景的安全护栏开关配置,这需要您上传有标注的样本集,AI会基于上传的标注样本集,智能地进行样本特征和标注标准的学习,然后为您生成一份适配于您业务场景的开关配置,点击确认应用配置后可一键生效应用,快速完成安全护栏的策略更新与生效。

说明
  1. 为保障策略调优效率、系统稳定性与调优效果,当前单次上传样本量范围建议在200~5000条内,且黑白样本比例建议接近1:1,在满足此条件下,样本数量越多,样本分布越均衡,通常会有越好的调优效果。

  2. 策略调优的样本模板可在会话中下载,其中,content(待检测样本列)、label(标注样本列,1为违规、0为正常)两列为必传列。

4.2 Agent任务管理

您可点击左栏展开任务管理,进行会话管理。

说明

为确保流畅稳定的交互体验,当前安全运营AgentUID最多支持3个会话并行运行。当并发数达到上限时,新任务将自动进入排队队列,待现有会话释放资源后即可无缝接续,避免长时间等待或响应延迟。

4.3 Agent产物

您可点击右栏展开任务监控,在此可看到该会话内的所有产物,在此您可以进行产物预览、下载及定位到对话中的位置等操作。