内容安全配置

LangStudio通过集成阿里云内容安全服务,支持对应用流的输入输出进行文本内容审核,对高风险内容识别与拦截。您可以部署应用流服务的时候在高级配置选项里按需启用,该功能启用需遵循地域及QPS限制要求。

大模型的输入输出中可能包含敏感或高风险内容,例如涉黄、涉政和广告等。为保障内容安全与合规,大模型通常内置了基础的合规检查机制。此外,LangStudio支持接入阿里云内容安全产品能力,进一步识别输入输出内容的违规信息,保障内容的安全与合规性。阿里云内容安全产品文档可参考:面向大语言模型的文本审核PLUS服务

使用说明

  • 目前阿里云内容安全支持的国内Region有:华东2(上海)、华北2(北京)、华东1(杭州)、华南1(深圳)。除了上述以外的 LangStudio 国内地域如有需要,默认跨region 使用华北2(北京)Region接入内容安全,同时由于EAS默认不通公网,需要用户配置专有网络,且专有网络需要开通公网访问,详情请参见使用公网NAT网关SNAT功能访问互联网。该功能不支持国际地域接入。

  • QPS 限制:内容安全接口的单服务 QPS限制为100次/秒。超过限制,调用会被限流,这可能会影响部署使用的业务,如果您的业务QPS超过该限制,请参考面向大语言模型的文本审核PLUS服务处理。

目前仅支持文本类型的内容安全审查。审查使用模型与内容安全服务的对应关系,以及计费信息,更详细的说明请参见文本审核增强版PLUS服务

配置内容安全服务

步骤一:开通内容审核服务

  1. 访问内容审核增强版页面,仔细阅读并选中服务协议。

  2. 单击立即开通

步骤二:创建RAM角色

在开启内容安全审查之前,您需要创建一个RAM角色(在应用流开发-启动运行时 时设置的实例RAM角色)。

  1. 使用RAM管理员登录RAM控制台

  2. 创建RAM角色。具体操作,请参见创建RAM角色并授权

  3. RAM角色授权系统策略权限:

    • AliyunPAIFullAccess

    • AliyunOSSFullAccess

    • AliyunYundunGreenWebFullAccess

  4. 同时,将该角色的可信实体修改为人工智能平台PAI和模型在线服务,具体操作请参见修改RAM角色的信任策略。以下是信任策略的示例配置:

    {
      "Statement": [
        {
          "Action": "sts:AssumeRole",
          "Effect": "Allow",
          "Principal": {
            "Service": "pai.aliyuncs.com"
          }
        },
        {
          "Action": "sts:AssumeRole",
          "Effect": "Allow",
          "Principal": {
            "Service": "eas.pai.aliyuncs.com"
          }
        }
      ],
      "Version": "1"
    }

完成以上配置后,您可以使用自定义 RAM角色 部署已经调试好的 LangStudio 应用流,为其接入内容安全审查功能。

步骤三:应用流开启内容安全

  1. 点击已调试完成的应用流的<部署>按钮,进行服务部署

  2. 展开部署页面的高级配置,开启并配置内容安全相关参数

image

内容安全相关配置项说明如下,配置后会通过环境变量的形式注入部署服务:

配置项

环境变量

说明

示例参数

开启输入内容审核

LANGSTUDIO_CIP_CHAT_INPUT_ENABLE

开启对话输入的内容审核。

默认关闭。

true

开启输出内容审核

LANGSTUDIO_CIP_CHAT_OUTPUT_ENABLE

开启对话输出的内容审核。

默认关闭

true

流式对话输出审核窗口

LANGSTUDIO_CIP_STREAMING_MODERATION_THRESHOLD

对流式对话输出进行审核的累积窗口大小。当累积输出大于阈值,则会触发一次内容审核。

默认值:5

3

  1. 完成服务部署配置并等待服务成功运行后,建议通过以下步骤验证内容安全审查功能的有效性:

    1. 发起测试请求

      使用EAS在线调试或 API 工具(如 Postman)向 LangStudio 服务发送包含不同内容类型的请求,例如:

      1. 正常内容:输入符合规范的文本(如 "人工智能技术分享")。

      2. 敏感内容:输入包含高风险关键词的文本(如 "破解软件教程" 或 "涉政敏感词")。

    2. 审查结果验证

      根据输入内容的安全等级,服务会返回不同的响应结果:

      1. 审查通过,表示内容符合安全策略,服务正常返回结果image

      2. 审查未通过,表示内容触发安全策略,服务已拦截并返回具体违规信息(如 HitLabel 和 RiskWords)。 image

查看审核结果

登录内容安全控制台,在API违规检测增强版 > 文本审核 > 结果查询页签页面查看审核结果,以进一步根据时间范围、风险等级或关键词筛选日志,应用流传输文本内容中高频的违规类型并优化内容策略。