检测项配置用于管理 AI 安全护栏的检测服务和防护维度。本文介绍如何在控制台查看 Service 列表、启用防护维度、配置检测规则和词库。
操作步骤
登录AI 安全护栏产品控制台。
在左侧导航栏,选择。
检测项配置列表展示当前可用的 Service,包括:
AI 输入内容安全检测_pro 版(query_guard_pro_ec):检测用户输入给大模型的文本内容。
AI 输出内容安全检测_pro 版(response_guard_pro_ec):检测大模型生成的文本内容。
Agent日志内容检测(agent_log_guard_ec):检测 Agent 运行日志中的文本内容。
AIGC输入图片安全检测(img_query_guard_ec):检测用户输入的图片内容。
AIGC输出图片安全检测(img_response_guard_ec):检测大模型生成的图片内容。
在目标 Service 的操作列,单击管理,进入 Service 管理页面。
在防护维度区域,查看当前 Service 支持的检测能力。每个防护维度以卡片形式展示,通过卡片上的开关启用或关闭对应功能。
文本类 Service 支持以下防护维度:
内容合规:检测色情、暴力、政治等不良内容,默认启用。
敏感内容检测:检测可能泄露的个人信息或企业敏感数据。
提示词攻击检测:检测旨在绕过大模型安全限制的恶意提示词。
恶意URL(公测中):扫描大模型内容中的恶意链接。
模型幻觉(公测中):检测大模型生成的虚假或不准确信息。
说明启用敏感内容检测或提示词攻击检测时,请关注弹框提示,该功能将单独计费。更多信息请参见开通与计费概述。
词库设置:在检测项配置列表中,对文本类 Service 设定词库进行加黑或加白操作。具体方案请参考词库管理。
规则管理
在 Service 管理页面,单击防护维度卡片上的配置管理,可配置该维度下每个风险标签的检测开关和细分规则。
以AI 输入内容安全检测_pro 版(query_guard_pro_ec)为例,在检测项配置列表中单击操作列的管理。
在防护维度区域,单击目标维度卡片(如内容合规)上的配置管理。
选择需要调整的检测类型,单击编辑进入编辑模式,修改对应检测状态。
单击保存。新配置的检测范围约 2~5 分钟生效并应用于生产环境。