快速使用自定义检测Agent

更新时间:
复制为 MD 格式

AI安全护栏支持用户配置和管理自定义检测Agent,该功能基于大语言模型,通过用户灵活自定义配置的交互内容,来快速实现业务自定义检测类别的检测和过滤。本文将介绍如何使用自定义检测Agent功能。

步骤一:开通AI安全护栏服务

前往AI安全护栏产品开通服务页面,开通AI安全护栏产品服务。

步骤二:启用自定义检测Agent

  1. 登录AI安全护栏产品控制台

  2. 在左侧导航栏,选择防护配置 > 检测项配置,如下service对应大模型输入输出均为文本模态的服务:

    AI输入内容安全检测(query_security_check)

    AI生成内容安全检测(response_security_check)

  3. AI输入内容安全检测(query_security_check) 为例,单击操作管理,进入检测项配置。若自定义检测Agent未开启,可在此页面一键开启,该功能单独收费,详见产品计费

步骤三:配置自定义检测Agent

  1. 进入自定义检测Agent页面:在自定义检测Agent卡片中,单击右下角配置管理

  2. 选择大模型:根据业务的具体审核需求,选择对应的大模型。实际检测过程中,会调用所选的大模型进行审核,目前可选的大模型有:

    模型名称

    模型特性说明

    文本审核大模型

    基于通义千问基础模型,在内容安全场景监督微调的文本审核大模型,可精准识别特定合规和治理类风险内容

    Qwen3_Plus

    通义千问3系列Plus模型。效果、速度、成本均衡。适合对效果有较高要求,但对耗时有一定容忍度的偏复杂场景。

    Qwen3_Flash

    通义千问3系列Flash模型。速度快、成本低,适合简单任务。

    重要

    选择的大模型将与计量相关,不同的大模型计量方式不同,详见开通与计费概述

  3. 配置自定义提示词

    • 选择预设场景模板:不同场景系统有预设不同的场景模板,分别支持不同的任务目标及检测标签,目前可选的场景模板如下:

      • 自定义标签模板:支持通用场景下的自定义检测标签配置。

    • 配置检测标签:根据业务需求,配置所需检测的标签及对应的提示词。每添加一项标签,均需定义对应的检测标签检测提示词。配置多个检测标签即让大模型进行多分类任务。故请尽可能用准确、精简的语言描述清楚大模型的每一项检测任务对应的检测标签及检测提示词。

      • 配置说明:

        • 检测标签:即向大模型明确待检测的具体类别名称,一般为名词短语。

        • 检测提示词:即向大模型明确对应的检测标准和检测规则,用于对待检测标签范围的展开说明,必要时可枚举1~3个示例。

      • 配置示例:

        审核标签

        审核标准

        站外引流

        通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。

        xx品牌恶意差评

        针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述。如:xx都是虚假宣传,远不如xx品牌。

      重要
      1. 自定义部分的提示词字符长度(即所有检测标签与检测提示词的总字符长度)将与计量相关。按照自定义部分的字符总长度,每3000字符计量一次(不满3000将按3000字符计算)。

      2. 同时,考虑提示词长度对耗时带来的影响(较长的提示词会带来检测耗时的上涨),目前最多支持30个自定义检测标签配置。

    • 模型输出格式:已预设,无需配置。详见API接入指南

    实际检测时,系统将基于所选的预设场景模板,进一步拼接自定义部分检测标签配置,以及预设的输出格式形成完整的提示词,从而调用预先选定的大模型获得审核结果。以上述示例标签为例,拼接后的完整提示词如下:

    你是一个资深的******审核专家,尤其擅长******,你所面临的业务问题是******,任务目标是******。
    待审核的标签如下:
    1. 站外引流:通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。   
    2. 对xx品牌的恶意差评:针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述,如xx都是虚假宣传,远不如xx品牌。   
    3. ******。******。现在给你一段待审核样本,请你判断待审核文本是否符合上述标签范围。并严格按照以下格式输出:******。

步骤四:效果测试

自定义检测Agent配置完成后,建议先进行测试,符合预期后再进行发布。单击页面左下角测试,即可测试配置效果,支持单条文本、多条文本(至多10条)进行测试。

说明

此页面的测试功能不计费,单个账号每天最多支持1000条文本。

步骤五:发布配置

当测试符合预期后,请单击发布,将自定义检测Agent的配置发布至线上,发布后,生产环境通常在2~5分钟生效,请谨慎操作。发布后,同时可以通过快速使用在线测试功能,进行效果测试。

步骤六:结果查询与风险报表

在左侧导航栏,选择检测结果,可查看自定义检测Agent的检测结果和风险报表。