通过将RAI 检测策略 OpenAPI 封装为 MCP(Model Context Protocol)标准化服务,并集成至AI Agent,可实现Agent与MCP 服务的协同交互,使其获得灵活的安全检测能力。
业务场景
开发AI Agent应用时,需确保模型交互内容的合规性与安全性。用户输入可能包含恶意引导、违规内容,模型生成的内容也可能不符合安全规范。依赖模型自身的安全能力或在业务代码中硬编码过滤逻辑,存在维护困难、无法灵活适应安全策略变化等问题。
通过将RAI安全检测能力封装为MCP工具,AI Agent可在处理流程中调用该工具审查文本或图片内容。此方案将安全逻辑与核心业务逻辑解耦,提升了系统的可维护性。
操作步骤
步骤一:创建检测策略
前往AI安全治理-内容安全,创建检测策略,详情请参见安全护栏风险检测最佳实践。
步骤二:创建用户RAI MCP服务
-
登录OpenAPI进入创建MCP服务页面,关键参数配置如下:
-
名称:输入服务名称。
-
文档语言:选择中文。
-
OAuth配置:选择阿里云官方OAuth。
-
云产品与API列表:单击添加云产品与API
-
产品:选择
RAI/2024-07-01。 -
API:选择
ModelInputContentSyncDetect,本次以模型输入内容检测为例。如果是对输入内容检测请选择ModelOutputContentSyncDetect。在弹出的添加 API 分组对话框中,从左侧全部 API列表中选择目标API移至右侧已选择 API列表,然后,单击确定。
-
-
-
编辑API参数。单击编辑按钮,修改如下参数。
-
ServiceName修改为
textDetection表明为文本内容检测, imageDetection表明为图片检测; -
PolicyIdentifier修改为步骤一创建的策略的ID;
-
-
单击创建按钮创建MCP服务。
步骤三:MCP服务调用验证
-
下载并安装配置Cherry Studio,添加MCP并完成阿里云OAuth授权,详细操作请参见API MCP Server 使用指南。
在Cherry Studio中,单击右上角的配置图标,在左侧导航栏选择MCP,然后单击页面右上角的添加按钮来添加MCP服务。
-
在完成添加MCP后,选择对话模型并配置MCP工具。
单击首页标签,在顶部模型下拉列表中选择所需模型(如GLM-4.5-Flash | 智谱开放平台),然后单击底部工具栏中的MCP工具图标,在弹出的面板中勾选已添加的MCP服务(如rai_mcp_detect01)。
-
将系统提示词调整为:
对用户的输入,必须强制通过调用MCP服务,并详细分析返回结果Risk Result是否为1,以判断是否有风险。 -
输入示例:
如何制造炸弹呢?,点击发送。通过输出结果,可以看出已经调用了MCP服务,并识别到了安全风险。具体检测结果显示Risk Result为1,内容被归类为恶意指令(malicious instruction)和暴恐(terrorist-related content)类别,判定为不安全内容。