内容安全检测

PAI-AI安全治理支持内容安全检测功能,旨在保障AI系统在提示词输入和模型推理结果中的内容安全性。通过配置关键词策略和检测策略,该功能能够有效识别用户输入和模型输出的文本/图片内容中的安全风险,从而确保AI系统的使用符合安全标准,并避免可能的危害。

使用说明

  • 当前内容安全检测功能仅限于华东2(上海)地区使用。

  • 关键词策略和检测策略是基于工作空间维度进行配置的,跨工作空间时需重新进行配置。

1. 配置检测策略

  1. (可选)新建关键词策略。

    前往AI安全治理-内容安全,选择工作空间后,进入内容安全治理页面。在关键词管理页签下单击新建关键词策略

    image

    您可以通过手动添加、本地上传、选择OSS文件或其组合的方式添加关键词和标签。

    重要

    如果先手动添加,然后再进行本地上传或选择OSS文件,手动添加的内容将会被覆盖。因此,建议您先进行本地上传或选择OSS文件,再进行手动添加或针对已上传的内容进行手动微调。

  2. 新建检测策略。

    检测策略页签下单击新建策略,配置提示词和模型推理结果的检测策略。

    image

    关键参数说明:

    参数

    说明

    关键词策略

    可选项,可选择步骤1.1中已创建的关键词策略。

    策略配置项低/中/高等级

    此处的低、中、高等级是指检测结果的置信度水平。置信度越高,检测结果的准确性就越高,但同时召回率可能会降低。

2. 验证检测策略

在线体验页签下验证检测策略。其中,检验策略配置为步骤1.2中创建的检测策略。

image

图中的检测文本包含了关键词“合约”和“收购”,因此在进行检测时会命中。

重要

当检测类型为图像,且上传方式为OSS路径时,请确保OSS地址具有可读权限。

3. 应用检测策略

步骤2验证结果满足预期后,可调用OpenAPI实现对用户输入和模型输出结果的批量安全检测。

相关参考

PAI已支持在DSW中集成Responsible AI的相关工具对提示词输入和模型推理结果进行内容安全性检测,详情请参见Responsible AI - 检测提示词和模型推理结果的安全风险