检测项配置

更新时间:
复制为 MD 格式

检测项配置用于管理 AI 安全护栏的检测服务和防护维度。本文介绍如何在控制台查看 Service 列表、启用防护维度、配置检测规则和词库。

操作步骤

  1. 登录AI 安全护栏产品控制台

  2. 在左侧导航栏,选择防护配置 > 检测项配置

    检测项配置列表展示当前可用的 Service,包括:

    • AI 输入内容安全检测_pro 版(query_guard_pro_ec):检测用户输入给大模型的文本内容。

    • AI 输出内容安全检测_pro 版(response_guard_pro_ec):检测大模型生成的文本内容。

    • Agent日志内容检测(agent_log_guard_ec):检测 Agent 运行日志中的文本内容。

    • AIGC输入图片安全检测(img_query_guard_ec):检测用户输入的图片内容。

    • AIGC输出图片安全检测(img_response_guard_ec):检测大模型生成的图片内容。

  3. 在目标 Service 的操作列,单击管理,进入 Service 管理页面。

  4. 防护维度区域,查看当前 Service 支持的检测能力。每个防护维度以卡片形式展示,通过卡片上的开关启用或关闭对应功能。

    文本类 Service 支持以下防护维度:

    • 内容合规:检测色情、暴力、政治等不良内容,默认启用。

    • 敏感内容检测:检测可能泄露的个人信息或企业敏感数据。

    • 提示词攻击检测:检测旨在绕过大模型安全限制的恶意提示词。

    • 恶意URL(公测中):扫描大模型内容中的恶意链接。

    • 模型幻觉(公测中):检测大模型生成的虚假或不准确信息。

    说明

    启用敏感内容检测提示词攻击检测时,请关注弹框提示,该功能将单独计费。更多信息请参见开通与计费概述

  5. 词库设置:在检测项配置列表中,对文本类 Service 设定词库进行加黑或加白操作。具体方案请参考词库管理

规则管理

在 Service 管理页面,单击防护维度卡片上的配置管理,可配置该维度下每个风险标签的检测开关和细分规则。

AI 输入内容安全检测_pro 版(query_guard_pro_ec)为例,在检测项配置列表中单击操作列的管理

  1. 在防护维度区域,单击目标维度卡片(如内容合规)上的配置管理

  2. 选择需要调整的检测类型,单击编辑进入编辑模式,修改对应检测状态。

  3. 单击保存。新配置的检测范围约 2~5 分钟生效并应用于生产环境。