快速使用自定义检测Agent

AI安全护栏支持用户配置和管理自定义检测Agent,该功能基于大语言模型,通过用户灵活自定义配置的交互内容,来快速实现业务自定义检测类别的检测和过滤。本文将介绍如何使用自定义检测Agent功能。

前提条件

  1. 前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。

  2. 开通自定义检测Agent功能,该功能单独计费,详见产品计费

操作指引

1. 进入配置页面

  • 登录AI安全护栏产品控制台

  • 在左侧导航栏,选择防护配置 > 检测项配置,可选策略如下:

    • AI输入内容安全检测(query_security_check)

    • AI生成内容安全检测(response_security_check)

    image

  • AI输入内容安全检测(query_security_check)为例,单击操作管理,进入检测项配置。若自定义检测Agent未开启,可在此页面一键开启,该功能单独收费,详见产品计费

    image

  • 在防护维度卡片中,选中自定义检测Agent,单击右下角配置管理,进入自定义检测Agent配置页面,在此可进行自定义检测标签提示词的配置,同时,该页面支持发布前的效果测试。

    Snipaste_2025-10-13_13-30-41

2. 选择大模型

  • 根据业务的具体审核需求,选择对应的大模型。实际检测过程中,会调用所选的大模型进行审核,目前可选的大模型有:

    模型名称

    模型特性说明

    文本审核大模型

    基于通义千问基础模型,在内容安全场景监督微调的文本审核大模型,可精准识别特定合规和治理类风险内容

    Qwen3_Plus

    通义千问3系列Plus模型

    Qwen3_Turbo

    通义千问3系列Turbo模型

    重要

    选择的大模型将与计量相关,不同的大模型计量方式不同,详见开通与计费概述

3. 配置自定义提示词

  • 选择预设场景模板。不同场景系统有预设不同的场景模板,分别支持不同的任务目标及检测标签,目前可选的场景模板如下:

    • 自定义标签模板:支持通用场景下的自定义检测标签配置。

  • 配置检测标签。根据您具体的业务需求,配置所需检测的标签及对应的提示词。每添加一项标签,均需定义对应的“检测标签”及“检测提示词”。配置多个检测标签即让大模型进行多分类任务。故请尽可能用准确、精简的语言描述清楚大模型的每一项检测任务对应的检测标签及检测提示词。

    • 配置说明:

      • 检测标签:即向大模型明确待检测的具体类别名称,一般为名词短语。单个标签不超过15个字符,仅支持汉字、英文字母、数字以及下划线,不支持特殊字符。

      • 检测提示词:即向大模型明确对应的检测标准和检测规则,用于对待检测标签范围的展开说明,必要时可枚举1~3个示例。单个标签的检测提示词不超过300字符,仅支持汉字、英文字母、数字、下划线及常见的标点符号,不支持特殊字符。

    • 配置示例:

      审核标签

      审核标准

      站外引流

      通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。

      xx品牌恶意差评

      针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述。如:xx都是虚假宣传,远不如xx品牌。

    重要
    1. 自定义部分的提示词字符长度(即所有检测标签与检测提示词的总字符长度)将与计量相关。按照自定义部分的字符总长度,每3000字符计量一次(不满3000将按3000字符计算)。

    2. 同时,考虑提示词长度对耗时带来的影响(较长的提示词会带来检测耗时的上涨),目前最多支持30个自定义检测标签配置。

  • 模型输出格式已预设,无需配置,详见API接入指南

实际检测时,系统会基于所选的预设场景模板,进一步拼接自定义部分检测标签配置,以及预设的输出格式形成完整的提示词,从而调用预先选定的大模型获得审核结果。以上述示例标签为例,拼接后的完整提示词如下:

你是一个资深的******审核专家,尤其擅长******,你所面临的业务问题是******,任务目标是******。待审核的标签如下:1. 站外引流:通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。 2. 对xx品牌的恶意差评:针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述,如xx都是虚假宣传,远不如xx品牌。 3. ******。******。现在给你一段待审核样本,请你判断待审核文本是否符合上述标签范围。并严格按照以下格式输出:******。

4. 效果测试

自定义检测Agent配置完成后,建议先进行效果测试,符合预期后再发布线上。单击页面左下角测试,便可离线测试自定义检测Agent效果,支持单条文本、多条文本(至多10条)的效果测试。

说明

需注意:此页面测试功能不计费,单个账号每天最多支持1000条文本。

测试结果

5.线上发布

效果测试符合预期后,单击发布可将自定义检测Agent配置发布线上,发布后对生产环境生效通常需要2~5分钟,请谨慎操作。发布线上后,同时可以通过快速使用在线测试功能,进行效果测试。

6. 结果查询与风险报表

在左侧导航栏,选择检测结果,可进行自定义检测Agent的结果查询与风险报表查看。