内容安全审核大模型最佳实践

更新时间:
复制为 MD 格式

阿里云内容安全增强版推出基于千问定制的图片、文本、视频、语音、文档审核大模型服务,能够全方位识别图片、文本、视频、语音、文档中的色情、性感、涉政、暴恐、违禁、宗教、引流广告、不良等违规内容,拥有更强的理解和泛化性能力,对方言和多语种的识别效果更好,有更精准的效果和更优的扩展能力。本文介绍内容安全审核大模型实践。

前提条件

  1. 开通内容安全增强版

  2. 集成内容安全增强版-文本审核大模型、内容安全增强版-图片审核大模型、内容安全增强版-视频检测大模型版、内容安全增强版-文档检测大模型版、内容安全增强版-语音审核大模型。

内容审核大模型一览表

  1. 阿里云内容安全当前提供图片审核大模型、文本审核大模型、视频审核大模型、语音审核大模型服务,具体的服务如下表:

模态

服务(service)

检测内容

适用场景

图片审核大模型

大小模型融合图片审核服务(postImageCheckByVL)

综合应用图片审核大模型和专家模型能力,能够全方位识别图片中的色情、性感、涉政、暴恐、违禁、宗教、引流广告、不良等违规内容,可返回详细标签

针对图片审核场景,以最佳审核效果为优先。建议在效果要求较高的场景选择该服务。更多信息请参考基于大模型的图片审核增强版服务

大小模型融合图片审核服务_出海版(postImageCheckByVL_cb)

针对出海场景,综合应用图片审核大模型和专家模型能力,能够全方位识别图片中的色情、性感、涉政、暴恐、违禁、宗教、旗帜、引流广告、不良、辱骂等违规内容,可返回详细标签。

针对图片审核场景,以最佳审核效果为优先。建议在效果要求较高的场景选择该服务。更多信息请参考基于大模型的图片审核增强版服务

通用图片审核大模型服务(baselineCheckByVL)

基于图片审核场景定制训练的审核大模型,能够识别图片中的涉黄、涉政、暴恐、违禁、不良、辱骂、广告等风险,可返回大类标签。

主要应用图片审核大模型的检测服务。需要体验大模型审核能力时,建议选择该服务。更多信息请参考基于大模型的图片审核增强版服务

文本审核大模型

UGC场景文本审核大模型服务_专业版(ugc_moderation_byllm_pro)

UGC 场景的各类文本审核。可以检测文本中的各项违规内容,具有更强的前后文分析理解能力,擅长正负向、暗喻、意识形态等审核能力。专业版具备更细分的风险标签

基于大模型能力构建的文本审核服务,能够高效精准地识别各类文本违规内容。具体参考基于大模型能力构建的文本审核服务

UGC场景文本审核大模型服务(ugc_moderation_byllm)

UGC 场景的各类文本审核。可以检测文本中的各项违规内容,具有更强的前后文分析理解能力,擅长正负向、暗喻、意识形态等审核能力。

基于大模型能力构建的文本审核服务,能够高效精准地识别各类文本违规内容。具体参考基于大模型能力构建的文本审核服务

UGC场景文本审核大模型服务_出海版(ugc_moderation_byllm_cb)

针对出海场景,基于大模型能力构建的 UGC 文本审核服务,能够高效精准地识别各类文本违规内容。

出海 UGC 场景的各类文本审核,建议使用该服务。更多信息请参考基于大模型能力构建的文本审核服务

AIGC场景文本审核大模型服务(aigc_moderation_byllm)

AIGC 场景的各类文本审核。可以检测文本中的各项违规内容,具有更强的前后文分析理解能力,擅长正负向、暗喻、意识形态等审核能力。

基于大模型能力构建的文本审核服务,能够高效精准地识别各类文本违规内容。更多信息请参考基于大模型能力构建的文本审核服务

视频审核大模型版

视频文件检测_大模型版(videoDetectionByVL)

视频画面基于图片审核大模型服务,检测视频文件中是否包含画面或语音违规信息。

检测视频文件中是否存在违规或不宜传播的内容,可配置图片大模型审核规则,默认为 10,请控制调用路数。更多信息请参考视频文件检测_大模型版

视频文件审核大模型版_出海版(videoDetectionByVL_cb)

针对出海场景,检测视频文件中是否包含画面或语音违规信息,视频画面基于图片审核大模型服务。

检测海外开放的视频文件中是否存在违规或不宜传播的内容,可配置图片大模型审核规则,默认为 10 路,请控制调用路数。更多信息请参考视频文件检测_大模型版

视频直播流检测_大模型版(liveStreamDetectionByVL)

视频画面基于图片审核大模型服务,检测视频直播流中是否包含画面或语音违规信息。

检测视频直播流中是否存在违规或不宜传播的内容,可配置图片大模型审核规则,默认为 5 路,请控制调用路数。更多信息请参考视频直播流审核_大模型版

视频直播流检测大模型版_出海版(liveStreamDetectionByVL_cb)

针对出海场景,检测视频直播流中是否包含画面或语音违规信息,视频画面基于图片审核大模型服务。

检测海外开放的视频直播流中是否存在违规或不宜传播的内容,可配置图片大模型审核规则,默认为 10 路,请控制调用路数。更多信息请参考视频直播流审核_大模型版

语音审核大模型

音视频媒体检测_大模型版(audio_detection_byllm)

综合应用通义大模型能力,针对音频中的风险进行检测,包括涉政、暴恐、违禁、色情等不良信息,可返回详细标签。

适用于对音视频媒体审核有较高要求的场景。更多信息请参考基于大模型的语音审核服务

音视频媒体检测_大模型出海版(audio_detection_byllm_cb)

针对出海场景,增加海外风险管控项,检测音频中的各类违规内容。

适用于出海业务的音视频媒体审核场景。更多信息请参考基于大模型的语音审核服务

社交娱乐直播检测_大模型版(stream_detection_byllm)

综合效果最佳,适合直播流审核高要求场景,检测音频流中的各类违规内容。

适用于社交娱乐直播流审核,综合效果最优。更多信息请参考基于大模型的语音审核服务

社交娱乐直播检测_大模型出海版(stream_detection_byllm_cb)

针对出海场景的直播流审核,增加海外风险管控项。

适用于出海场景的社交娱乐直播流审核。更多信息请参考基于大模型的语音审核服务

图文混合模态审核大模型

帖子图文多模态检测(post_text_image_detection)

结合主帖内容和评论内容进行综合风险判断,检测帖子及评论中是否涉及涉政、色情、性暗示、不良、广告、辱骂、暴恐、违禁等风险内容。

针对社区、论坛等有大量帖子场景,结合帖子图文以及上下文进行综合风险判断。更多信息请参考图文混合模态审核大模型服务

头像昵称图文多模态检测(profile_text_image_detection)

结合头像和昵称进行综合风险分析,检测是否涉及涉政、色情、性暗示、不良、广告、辱骂、暴恐、违禁等风险内容。

针对社交、IM、游戏、电商、教育等各种有用户资料的场景。更多信息请参考图文混合模态审核大模型服务

文档审核大模型版

通用文档审核大模型版(document_detection_byvl)

文档图像部分基于图片审核大模型服务,检测文档中是否包含图像或文本违规信息,包括色情、性感、涉政、暴恐、违禁等底线类内容。

适用于通用类型文档的内容检测,支持 WORD、PPT、EXCEL 和 PDF 等格式文件。更多信息请参考文档审核大模型版

自定义 Agent

自定义审核智能体

支持用户创建和配置自定义审核智能体,该功能基于大语言模型,通过用户灵活自定义配置的交互内容,来快速实现业务自定义检测类别的检测和过滤。

适用于平台业务有自定义检测类别的检测和过滤需求时使用。更多信息请参考基于审核智能体快速构建自定义检测能力

  1. 所需集成和配置的 API:

模态

API 接口

API service 配置

图片审核大模型

ImageModeration

postImageCheckByVL

postImageCheckByVL_cb

baselineCheckByVL

文本审核大模型

TextModerationPlus

ugc_moderation_byllm

ugc_moderation_byllm_cb

aigc_moderation_byllm

视频审核大模型

VideoModeration

videoDetectionByVL

videoDetectionByVL_cb

liveStreamDetectionByVL

liveStreamDetectionByVL_cb

语音审核大模型

VoiceModeration

audio_detection_byllm

audio_detection_byllm_cb

stream_detection_byllm

stream_detection_byllm_cb

图文混合审核大模型

MultimodalModeration

post_text_image_detection

profile_text_image_detection

文档审核大模型

FileModeration

document_detection_byvl

对检测规则进行调整

阿里云内容安全支持通过控制台对检测规则进行调整,具体参见内容安全控制台。以ImageModeration接口为例:

  1. 在左侧导航栏,选择机器审核V2.0 > 图片审核 > 规则配置

  2. 规则管理页签,以大小模型融合图片审核服务(postImageCheckByVL)场景为例,单击操作设置词库

    1. 选择需要调整的检测类型,以不良内容检测为例。

    2. 单击编辑进入编辑模式,修改对应检测状态。

    3. 单击保存,保存新配置的检测范围。新配置的检测范围约 2~5 分钟生效并应用于生产环境。