安全护栏是阿里云为人工智能系统设计的安全防护产品,旨在通过高可用、高精准的风险检测方案,帮助AI系统在响应用户指令时,提供安全、合规、可靠的服务。
产品功能
在开发和运营AI应用、AI Agent时,开发者和AI企业往往面临安全威胁,包括内容合规风险、数据泄露风险、提示词注入攻击、幻觉、越狱等,这些AI风险的出现,不仅威胁到业务的正常经营、更为企业带来极大的合规和社会风险。
安全护栏为保障AI业务的合规、安全、稳定而生,面向预训练大模型、AI服务和AI Agent等不同的业务形态,提供全链路防护体系。尤其在生成式AI的输入输出场景,安全护栏可提供精准的风险检测与主动防御能力。
风险检测能力
包括内容合规检测、敏感内容检测、提示词攻击检测等全方位检测能力。
内容合规检测:对生成式AI输入输出的文本内容进行多维度合规审查,覆盖涉政敏感、色情低俗、偏见歧视、不良价值观等风险类别,确保AI生成内容符合法律法规与平台规范。适用场景:对话机器人、AI教育、智能客服、AIGC创作平台等场景。
敏感内容检测:深度检测AI交互过程中可能泄露的隐私数据与敏感信息,支持涉及个人隐私、企业隐私等敏感内容的识别,防范训练数据泄露与对话信息外溢风险。适用场景:AI医疗、AI金融服务、企业知识库问答等场景。
提示词攻击检测:专业防御针对生成式AI的注入式攻击,精准识别越狱指令、角色扮演诱导、系统指令篡改等对抗性攻击行为,构建AI系统的“免疫防线”。适用场景:AI Agent的指令交互安全防护、开放域对话系统的对抗攻击防御、第三方插件调用的权限管控等场景。
恶意文件检测:深度解析用户上传的PDF、PPT、DOC等常见文档格式,识别其中隐藏的可执行脚本、宏病毒、嵌套攻击代码等恶意内容,防范攻击者通过文件注入方式对AI系统实施越权操控或数据渗透。适用于AI支持文档上传的场景,如智能简历解析、合同问答、企业知识库构建等。
恶意URL检测:实时分析AI在交互过程中接收或生成的链接内容,识别钓鱼网站、恶意跳转、隐蔽攻击载荷等高风险URL,防止大模型被诱导访问非法资源或成为网络攻击的传播媒介。适用于AI搜索、网页摘要、RAG知识检索及自动化外联操作等场景。
数字水印标识:依据《人工智能生成合成内容标识办法》,对AI生成的图像内容自动嵌入可见或不可见的水印信息,实现AIGC内容来源可追溯、责任可界定,有效防范虚假信息传播与版权纠纷。适用于AIGC创作平台、新闻媒体、政务宣传、教育内容生成等合规敏感场景。
自定义防护配置
支持在防护配置中更改精细化的风险检测项。您可通过点击登录AI安全护栏产品控制台,随时打开或关闭相关的风险检测内容,以建立最合适的风险检测模板。
自定义检测项:对内容合规检测中的精细化标签进行配置。
自定义风险阈值:对精细化标签的命中阈值进行配置,在模型输出的0-100置信分中,支持最小配置步长1。
自定义过滤词:对需要检测和拦截的敏感词(如竞争对手名字等)进行配置,支持增、删、改等词库管理操作。
更多产品功能,可查看文档功能特性页。
使用场景
以下列举部分建议使用安全护栏产品进行风险检测的业务场景:
提交给生成式AI处理的用户提示词。
生成式AI输出的多模态内容,包括文本、图片、视频等。
生成式AI训练语料的扫描、去毒。
AI Agent用户指令输入和输出的风险检测。