PAI-AI安全治理支持内容安全检测功能,旨在保障AI系统在提示词输入和模型推理结果中的内容安全性。通过配置关键词策略和检测策略,该功能能够有效识别用户输入和模型输出的文本/图片内容中的安全风险,从而确保AI系统的使用符合安全标准,并避免可能的危害。
使用说明
当前内容安全检测功能仅限于华东2(上海)地区使用。
关键词策略和检测策略是基于工作空间维度进行配置的,跨工作空间时需重新进行配置。
1. 配置检测策略
(可选)新建关键词策略。
前往AI安全治理-内容安全,选择工作空间后,进入内容安全治理页面。在关键词管理页签下单击新建关键词策略:
您可以通过手动添加、本地上传、选择OSS文件或其组合的方式添加关键词和标签。
重要如果先手动添加,然后再进行本地上传或选择OSS文件,手动添加的内容将会被覆盖。因此,建议您先进行本地上传或选择OSS文件,再进行手动添加或针对已上传的内容进行手动微调。
新建检测策略。
在检测策略页签下单击新建策略,配置提示词和模型推理结果的检测策略。
关键参数说明:
参数
说明
关键词策略
可选项,可选择步骤1.1中已创建的关键词策略。
策略配置项低/中/高等级
此处的低、中、高等级是指检测结果的置信度水平。置信度越高,检测结果的准确性就越高,但同时召回率可能会降低。
2. 验证检测策略
在在线体验页签下验证检测策略。其中,检验策略配置为步骤1.2中创建的检测策略。
图中的检测文本包含了关键词“合约”和“收购”,因此在进行检测时会命中。
重要
当检测类型为图像,且上传方式为OSS路径时,请确保OSS地址具有可读权限。
3. 应用检测策略
相关参考
PAI已支持在DSW中集成Responsible AI的相关工具对提示词输入和模型推理结果进行内容安全性检测,详情请参见Responsible AI - 检测提示词和模型推理结果的安全风险。
该文章对您有帮助吗?