内容安全审核大模型最佳实践-AI 安全护栏(AI Guardrails)-阿里云帮助中心

阿里云内容安全增强版推出基于千问定制的图片、文本、视频、语音、文档审核大模型服务，能够全方位识别图片、文本、视频、语音、文档中的色情、性感、涉政、暴恐、违禁、宗教、引流广告、不良等违规内容，拥有更强的理解和泛化能力，对方言和多语种的识别效果更好，有更精准的效果和更优的扩展能力。本文介绍内容安全审核大模型实践。

前提条件

开通内容安全增强版
集成内容安全增强版-文本审核大模型、内容安全增强版-图片审核大模型、内容安全增强版-视频检测大模型版、内容安全增强版-文档检测大模型版、内容安全增强版-语音审核大模型。

内容审核大模型一览表

阿里云内容安全当前提供图片审核大模型、文本审核大模型、视频审核大模型、语音审核大模型服务，具体的服务如下表：

模态	服务（service）	检测内容	适用场景
图片审核大模型	大小模型融合图片审核服务（postImageCheckByVL）	综合应用图片审核大模型和专家模型能力，能够全方位识别图片中的色情、性感、涉政、暴恐、违禁、宗教、引流广告、不良等违规内容，可返回详细标签。	针对图片审核场景，以最佳审核效果为优先。建议在效果要求较高的场景选择该服务。更多信息请参考基于大模型的图片审核增强版服务。
	大小模型融合图片审核服务_出海版（postImageCheckByVL_cb）	针对出海场景，综合应用图片审核大模型和专家模型能力，能够全方位识别图片中的色情、性感、涉政、暴恐、违禁、宗教、旗帜、引流广告、不良、辱骂等违规内容，可返回详细标签。	针对图片审核场景，以最佳审核效果为优先。建议在效果要求较高的场景选择该服务。更多信息请参考基于大模型的图片审核增强版服务。
	通用图片审核大模型服务（baselineCheckByVL）	基于图片审核场景定制训练的审核大模型，能够识别图片中的涉黄、涉政、暴恐、违禁、不良、辱骂、广告等风险，可返回大类标签。	主要应用图片审核大模型的检测服务。需要体验大模型审核能力时，建议选择该服务。更多信息请参考基于大模型的图片审核增强版服务。
	图片广告检测大模型服务（adCheckByVL）	基于定制训练的大模型对图像进行深度语义理解，精准识别各类隐蔽性强、对抗性高的广告引流行为，包括但不限于联系方式伪装、诱导跳转、二维码隐写、AI 生成引流广告等。	适用于社交、内容社区、论坛等平台的引流广告治理和打击，以及电商平台商品评论区的违规广告识别。更多信息请参考基于大模型的图片审核增强版服务。
文本审核大模型	UGC场景文本审核大模型服务_专业版（ugc_moderation_byllm_pro）	UGC 场景的各类文本审核。可以检测文本中的各项违规内容，具有更强的前后文分析理解能力，擅长正负向、暗喻、意识形态等审核能力。专业版具备更细分的风险标签。	基于大模型能力构建的文本审核服务，能够高效精准地识别各类文本违规内容。具体参考基于大模型能力构建的文本审核服务。
	UGC场景文本审核大模型服务（ugc_moderation_byllm）	UGC 场景的各类文本审核。可以检测文本中的各项违规内容，具有更强的前后文分析理解能力，擅长正负向、暗喻、意识形态等审核能力。	基于大模型能力构建的文本审核服务，能够高效精准地识别各类文本违规内容。具体参考基于大模型能力构建的文本审核服务。
	UGC场景文本审核大模型服务_出海版（ugc_moderation_byllm_cb）	针对出海场景，基于大模型能力构建的 UGC 文本审核服务，能够高效精准地识别各类文本违规内容。	出海 UGC 场景的各类文本审核，建议使用该服务。更多信息请参考基于大模型能力构建的文本审核服务。
	AIGC场景文本审核大模型服务（aigc_moderation_byllm）	AIGC 场景的各类文本审核。可以检测文本中的各项违规内容，具有更强的前后文分析理解能力，擅长正负向、暗喻、意识形态等审核能力。	基于大模型能力构建的文本审核服务，能够高效精准地识别各类文本违规内容。更多信息请参考基于大模型能力构建的文本审核服务。
视频审核大模型版	视频文件检测_大模型版（videoDetectionByVL）	视频画面基于图片审核大模型服务，检测视频文件中是否包含画面或语音违规信息。	检测视频文件中是否存在违规或不宜传播的内容，可配置图片大模型审核规则，默认为 10 路，请控制调用路数。更多信息请参考视频文件检测_大模型版。
	视频文件审核大模型版_出海版（videoDetectionByVL_cb）	针对出海场景，检测视频文件中是否包含画面或语音违规信息，视频画面基于图片审核大模型服务。	检测海外开放的视频文件中是否存在违规或不宜传播的内容，可配置图片大模型审核规则，默认为 10 路，请控制调用路数。更多信息请参考视频文件检测_大模型版。
	视频直播流检测_大模型版（liveStreamDetectionByVL）	视频画面基于图片审核大模型服务，检测视频直播流中是否包含画面或语音违规信息。	检测视频直播流中是否存在违规或不宜传播的内容，可配置图片大模型审核规则，默认为 5 路，请控制调用路数。更多信息请参考视频直播流审核_大模型版。
	视频直播流检测大模型版_出海版（liveStreamDetectionByVL_cb）	针对出海场景，检测视频直播流中是否包含画面或语音违规信息，视频画面基于图片审核大模型服务。	检测海外开放的视频直播流中是否存在违规或不宜传播的内容，可配置图片大模型审核规则，默认为 10 路，请控制调用路数。更多信息请参考视频直播流审核_大模型版。
语音审核大模型	音视频媒体检测_大模型版（audio_detection_byllm）	综合应用通义大模型能力，针对音频中的风险进行检测，包括涉政、暴恐、违禁、色情等不良信息，可返回详细标签。	适用于对音视频媒体审核有较高要求的场景。更多信息请参考基于大模型的语音审核服务。
	音视频媒体检测_大模型出海版（audio_detection_byllm_cb）	针对出海场景，增加海外风险管控项，检测音频中的各类违规内容。	适用于出海业务的音视频媒体审核场景。更多信息请参考基于大模型的语音审核服务。
	社交娱乐直播检测_大模型版（stream_detection_byllm）	综合效果最佳，适合直播流审核高要求场景，检测音频流中的各类违规内容。	适用于社交娱乐直播流审核，综合效果最优。更多信息请参考基于大模型的语音审核服务。
	社交娱乐直播检测_大模型出海版（stream_detection_byllm_cb）	针对出海场景的直播流审核，增加海外风险管控项。	适用于出海场景的社交娱乐直播流审核。更多信息请参考基于大模型的语音审核服务。
图文混合模态审核大模型	帖子图文多模态检测（post_text_image_detection）	结合主帖内容和评论内容进行综合风险判断，检测帖子及评论中是否涉及涉政、色情、性暗示、不良、广告、辱骂、暴恐、违禁等风险内容。	针对社区、论坛等有大量帖子场景，结合帖子图文以及上下文进行综合风险判断。更多信息请参考图文混合模态审核大模型服务。
图文混合模态审核大模型	头像昵称图文多模态检测（profile_text_image_detection）	结合头像和昵称进行综合风险分析，检测是否涉及涉政、色情、性暗示、不良、广告、辱骂、暴恐、违禁等风险内容。	针对社交、IM、游戏、电商、教育等各种有用户资料的场景。更多信息请参考图文混合模态审核大模型服务。
文档审核大模型版	通用文档审核大模型版（document_detection_byvl）	文档图像部分基于图片审核大模型服务，检测文档中是否包含图像或文本违规信息，包括色情、性感、涉政、暴恐、违禁等底线类内容。	适用于通用类型文档的内容检测，支持 WORD、PPT、EXCEL 和 PDF 等格式文件。更多信息请参考文档审核大模型版。
自定义 Agent	自定义审核智能体	支持用户创建和配置自定义审核智能体，该功能基于大语言模型，通过用户灵活自定义配置的交互内容，来快速实现业务自定义检测类别的检测和过滤。	适用于平台业务有自定义检测类别的检测和过滤需求时使用。更多信息请参考基于审核智能体快速构建自定义检测能力。

所需集成和配置的 API：

模态	API 接口	API service 配置
图片审核大模型	ImageModeration	postImageCheckByVL postImageCheckByVL_cb baselineCheckByVL adCheckByVL
文本审核大模型	TextModerationPlus	ugc_moderation_byllm_pro ugc_moderation_byllm ugc_moderation_byllm_cb aigc_moderation_byllm
视频审核大模型	VideoModeration	videoDetectionByVL videoDetectionByVL_cb liveStreamDetectionByVL liveStreamDetectionByVL_cb
语音审核大模型	VoiceModeration	audio_detection_byllm audio_detection_byllm_cb stream_detection_byllm stream_detection_byllm_cb
图文混合审核大模型	MultimodalAsyncModeration	post_text_image_detection profile_text_image_detection
文档审核大模型	FileModeration	document_detection_byvl

对检测规则进行调整

阿里云内容安全支持通过控制台对检测规则进行调整，具体参见内容安全控制台。以ImageModeration接口为例：

在左侧导航栏，选择机器审核V2.0 > 图片审核 > 规则配置。
在规则管理页签，以大小模型融合图片审核服务（postImageCheckByVL）场景为例，单击操作列设置词库。
1. 选择需要调整的检测类型，以不良内容检测为例。
2. 单击编辑进入编辑模式，修改对应检测状态。
3. 单击保存，保存新配置的检测范围。新配置的检测范围约 2~5 分钟生效并应用于生产环境。