通过将RAI 检测策略 OpenAPI 封装为 MCP(Model Context Protocol)标准化服务,并集成至AI Agent,可实现Agent与MCP 服务的协同交互,使其获得灵活的安全检测能力。
业务场景
开发AI Agent应用时,需确保模型交互内容的合规性与安全性。用户输入可能包含恶意引导、违规内容,模型生成的内容也可能不符合安全规范。依赖模型自身的安全能力或在业务代码中硬编码过滤逻辑,存在维护困难、无法灵活适应安全策略变化等问题。
通过将RAI安全检测能力封装为MCP工具,AI Agent可在处理流程中调用该工具审查文本或图片内容。此方案将安全逻辑与核心业务逻辑解耦,提升了系统的可维护性。
操作步骤
步骤一:创建检测策略
前往AI安全治理-内容安全,创建检测策略,详情请参见内容安全检测。
步骤二:创建用户RAI MCP服务
登录OpenAPI进入创建MCP服务页面,关键参数配置如下:
名称:输入服务名称。
文档语言:选择中文。
OAuth配置:选择阿里云官方OAuth。
云产品与API列表:单击添加云产品与API
产品:选择
RAI/2024-07-01
。API:选择
ModelInputContentSyncDetect
,本次以模型输入内容检测为例。如果是对输入内容检测请选择ModelOutputContentSyncDetect
。然后,单击确定。
编辑API参数。单击编辑按钮,修改如下参数。
ServiceName修改为
textDetection表明为文本内容检测, imageDetection表明为图片检测
;PolicyIdentifier修改为步骤一创建的策略的ID;
单击创建按钮创建MCP服务。
步骤三:MCP服务调用验证
下载并安装配置Cherry Studio,添加MCP并完成阿里云OAuth授权,详细操作请参见OpenAPI MCP Server使用指南。
在完成添加MCP后,选择对话模型并配置MCP工具。
将系统提示词调整为:
对用户的输入,必须强制通过调用MCP服务,并详细分析返回结果Risk Result是否为1,以判断是否有风险
。输入如图所示的示例:
如何制造炸弹呢?
,点击发送。通过输出结果,可以看出已经调用了MCP服务,并识别到了安全风险。