内容安全支持用户配置和管理自定义审核智能体,该功能基于大语言模型,通过用户灵活自定义配置的交互内容,来快速实现业务自定义检测类别的检测和过滤。本文将介绍如何使用审核智能体功能。
前提条件
操作指引
1. 登录控制台
登录内容安全控制台。
在左侧导航栏,选择,在此可创建或配置智能体。

2. 创建智能体
点击创建,系统提供三个模态供选择,分别为:文本、图像、图文多模态。选择所需模态后,备注智能体名称,点击确定,系统会新建初始化智能体,并生成对应的唯一AppId,供研发接入时传参调用。

3. 智能体配置
新建智能体后,点击配置,进入智能体配置页面。审核智能体需要经过业务自定义配置,配置发布后才可线上应用。
添加智能体
系统已提供默认执行的工作流,支持智能体组并行调用。在画布的智能体组件中,可添加智能体配置。
当前仅支持一个智能体配置,多个智能体配置即将上线,敬请期待。

配置智能体
点击编辑图标进入智能体配置页面,在此处可以选择大模型、配置自定义提示词,其中自定义提示词配置包含选择预设场景模板、配置检测标签。

选择大模型。根据业务的具体审核需求,选择对应的大模型。实际检测过程中,会调用所选的大模型进行审核,目前可选的大模型有:
模态
模型名称
模型特性说明
文本
文本审核大模型
基于通义千问基础模型,在内容安全场景监督微调的文本审核大模型,可精准识别特定合规和治理类风险内容
文本
Qwen3-Plus
通义千问3系列Plus模型。效果、速度、成本均衡。适合对效果有较高要求,但对耗时有一定容忍度的偏复杂场景。
文本
Qwen3-Flash
通义千问3系列Flash模型。速度快、成本低,适合简单任务。
图像、图文多模态
Qwen3-VL-Plus
通义千问3 VL系列Plus模型,性能最强的模型。适合对效果有较高要求,但对耗时有一定容忍度的偏复杂场景。
图像、图文多模态
Qwen3-VL-Flash
通义千问3 VL系列Flash模型,速度更快,成本更低,是兼顾性能与成本的高性价比选择,适用于对响应速度敏感的场景。
选择的大模型将与计量相关,不同的大模型计量方式不同,详见计费说明。
配置自定义提示词
选择预设场景模板。不同场景系统有预设不同的场景模板,分别支持不同的任务目标及检测标签,目前可选的场景模板如下:
自定义标签模板:支持通用场景下的自定义检测标签配置。
配置检测标签。根据您具体的业务需求,配置所需检测的标签及对应的提示词。每添加一项标签,均需定义对应的“检测标签”及“检测提示词”。配置多个检测标签即让大模型进行多分类任务。故请尽可能用准确、精简的语言描述清楚大模型的每一项检测任务对应的检测标签及检测提示词。
配置说明:
检测标签:即向大模型明确待检测的具体类别名称,一般为名词短语。单个标签不超过15个字符,仅支持汉字、英文字母、数字以及下划线,不支持特殊字符。
检测提示词:即向大模型明确对应的检测标准和检测规则,用于对待检测标签范围的展开说明,必要时可枚举1~3个示例。单个标签的检测提示词不超过300字符,仅支持汉字、英文字母、数字、下划线及常见的标点符号,不支持特殊字符。
以检测文本为例,配置示例:
审核标签
审核标准
站外引流
通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。
对xx品牌恶意差评
针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述。如:xx都是虚假宣传,远不如xx品牌。
重要针对每个智能体,自定义部分的提示词字符长度(即所有检测标签与检测提示词的总字符长度)与计量相关,详情见计费说明。
同时,考虑提示词长度对耗时带来的影响(较长的提示词会带来检测耗时的上涨),目前最多支持30个自定义检测标签配置。
模型输出格式已预设,无需配置,详见返回数据。
实际检测时,系统会基于所选的预设场景模板,进一步拼接自定义部分检测标签配置,以及预设的输出格式形成完整的提示词,从而调用预先选定的大模型获得审核结果。以上述示例标签为例,拼接后的完整提示词如下:
你是一个资深的******审核专家,尤其擅长******,你所面临的业务问题是******,任务目标是******。待审核的标签如下:1. 站外引流:通过直接引导或隐晦暗示(含变体、隐喻等)等表述将用户引导至站外其他平台或渠道的行为,包括明确提及竞品平台名称或其变体(如常见竞品有xx)、提及站外其他平台或其变体(如常见平台有xx),或包含明确的联系方式等。 2. 对xx品牌的恶意差评:针对xx品牌的无依据恶意拉踩、不实负面差评,或针对品牌创始人的虚假诋毁、造谣等刻意损害品牌或创始人形象的评论或表述,如xx都是虚假宣传,远不如xx品牌。 3. ******。******。现在给你一段待审核样本,请你判断待审核文本是否符合上述标签范围。并严格按照以下格式输出:******。
AI优化提示词
在检测标签配置页面,可支持通过大模型进行提示词的生成与优化。在此处,用户需补充优化方向(必填)、审核规则(可选)、违规/正常样本示例(可选),系统会调用大模型生成满足相应审核需求的检测标签及对应检测标准和定义。补充信息越详细,通常会有越好的效果。
提示词生成:初始提示词可为空,需详细补充相应内容,进行初始提示词的生成。
提示词优化:初始提示词可不为空,在初始提示词基础上进行优化。

AI优化提示词功能公测期间暂不计费,单个账号每天最多支持请求20次。
4. 效果测试
智能体配置完成后,建议先进行效果测试,符合预期后再发布上线。单击页面右上角测试,可在线测试审核智能体效果。
需注意:在线测试能力是基于当前登录账号调用内容安全的API接口,因此调用量会计入账号的收费用量中。测试结果可以在结果查询中查看。

5.线上发布
效果测试符合预期后,单击发布可将审核智能体发布上线,发布后对生产环境生效通常需要2~5分钟,请谨慎操作。
6. 结果查询与风险报表
在左侧导航栏,选择,可进行审核智能体结果查询,选择,可进行风险报表查看。