文本审核增强版PLUS服务-AI 安全护栏(AI Guardrails)-阿里云帮助中心

文本审核增强版升级PLUS服务，开放审核标签的开启和关闭功能。本文介绍文本审核PLUS服务使用方法。

风险标签

标签含义

面向文本审核PLUS服务支持返回10个类型的60+个细分标签和标签置信度。如果内容存在多种风险类型，能够同时返回多个细分标签。以下是风险标签值、对应的分值区间以及对应的含义：

标签类型	标签值（label）	置信分区间（confidence）	中文含义
文本审核风险标签	pornographic_adult	0~100分，分数越高置信度越高	疑似色情内容
	sexual_terms	0~100分，分数越高置信度越高	疑似性健康内容
	sexual_suggestive	0~100分，分数越高置信度越高	疑似低俗内容
	political_figure	0~100分，分数越高置信度越高	疑似政治人物
	political_entity	0~100分，分数越高置信度越高	疑似政治实体
	political_n	0~100分，分数越高置信度越高	疑似敏感政治内容
	political_p	0~100分，分数越高置信度越高	疑似涉政禁宣人物
	political_a	0~100分，分数越高置信度越高	涉政专项升级保障
	violent_extremist	0~100分，分数越高置信度越高	疑似极端组织
	violent_incidents	0~100分，分数越高置信度越高	疑似极端主义内容
	violent_weapons	0~100分，分数越高置信度越高	疑似武器弹药
	contraband_drug	0~100分，分数越高置信度越高	疑似毒品相关
	contraband_gambling	0~100分，分数越高置信度越高	疑似赌博相关
	contraband_act	0~100分，分数越高置信度越高	疑似违禁行为
	contraband_entity	0~100分，分数越高置信度越高	疑似违禁工具
	inappropriate_discrimination	0~100分，分数越高置信度越高	疑似偏见歧视内容
	inappropriate_ethics	0~100分，分数越高置信度越高	疑似不良价值观内容
	inappropriate_profanity	0~100分，分数越高置信度越高	疑似攻击辱骂内容
	inappropriate_oral	0~100分，分数越高置信度越高	疑似低俗口头语内容
	inappropriate_superstition	0~100分，分数越高置信度越高	疑似封建迷信内容
	inappropriate_nonsense	0~100分，分数越高置信度越高	疑似无意义灌水内容
	pt_to_sites	0~100分，分数越高置信度越高	疑似站外引流
	pt_by_recruitment	0~100分，分数越高置信度越高	疑似网赚兼职广告
	pt_to_contact	0~100分，分数越高置信度越高	疑似引流广告号
	religion_b	0~100分，分数越高置信度越高	疑似涉及佛教
	religion_t	0~100分，分数越高置信度越高	疑似涉及道教
	religion_c	0~100分，分数越高置信度越高	疑似涉及基督教
	religion_i	0~100分，分数越高置信度越高	疑似涉及伊斯兰教
	religion_h	0~100分，分数越高置信度越高	疑似涉及印度教
	ad_compliance	0~100分，分数越高置信度越高	违反广告法内容
	customized	0~100分，分数越高置信度越高	命中自定义词库
	nonLabel	无该字段	未检测出风险
文本AI生成鉴别标签	aigc	0~100分，分数越高置信度越高	文本疑似AI生成内容
	ugc	0~100分，分数越高置信度越高	文本非AI生成内容
	nonLabel	无该字段	未检测出风险

管理标签

每个风险标签均可以在控制台进行开关配置，部分风险标签会提供更细分检测范围的开关配置，具体参见内容安全控制台。

在左侧导航栏，选择API违规检测增强版>文本审核>规则配置。
在规则管理页签，以大语言模型输入文字检测（llm_query_moderation）为例，单击操作列管理检测规则。
1. 选择需要调整的检测类型，以不良内容检测为例。
2. 单击编辑进入编辑模式，修改对应检测状态。
3. 单击保存，保存新配置的检测范围。新配置的检测范围约2~5分钟生效并应用于生产环境。

启用Service

规则配置页面的Service列表中，每个Service默认显示为未使用状态。Service无需额外开通，完成检测规则配置后即可通过API调用。

登录内容安全管理控制台。
在左侧导航栏，选择机器审核增强版>文本审核>规则配置。
在Service列表中找到目标Service（如comment_detection_pro），单击操作列的管理检测规则。
在审核范围配置页签，根据业务需求开启或关闭各检测项，单击保存。配置修改约2~5分钟后生效。
（可选）如需自定义关键词检测，返回Service列表，单击操作列的设置词库配置词库。
在API调用时，将Service参数设置为对应的Service名称（如comment_detection_pro）即可使用该服务。

接入指南

步骤一：开通服务

访问开通服务，开通文本审核增强版服务。

步骤二：为RAM用户授权

在接入SDK或者API之前，您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥（AccessKey）。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式，请参见获取AccessKey。

操作步骤

使用阿里云账号登录RAM控制台。
创建RAM用户。
具体操作，请参见创建RAM用户。
向RAM用户授权系统策略权限：AliyunYundunGreenWebFullAccess。
具体操作，请参见管理RAM用户的权限。
完成以上配置后，您可以使用RAM用户调用内容安全API。

步骤三：安装并接入SDK

文本审核增强版PLUS服务SDK请参考文本审核增强版PLUS服务SDK及接入指南。

API说明

使用说明

您可以调用该接口创建文本内容检测任务。关于如何构造HTTP请求，请参见HTTPS原生调用；您也可以直接选用已构造好的HTTP请求，更多信息，请参见接入指南部分。

您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。

业务接口：TextModerationPlus
支持的地域及接入地址：

地域	外网接入地址	内网接入地址	支持服务
华东2（上海）	green-cip.cn-shanghai.aliyuncs.com	green-cip-vpc.cn-shanghai.aliyuncs.com	ugc_moderation_byllm_pro、ugc_moderation_byllm、nickname_detection_pro、chat_detection_pro、comment_detection_pro、ad_compliance_detection_pro、text_aigc_detector
华北2（北京）	green-cip.cn-beijing.aliyuncs.com	green-cip-vpc.cn-beijing.aliyuncs.com
华东1（杭州）	green-cip.cn-hangzhou.aliyuncs.com	green-cip-vpc.cn-hangzhou.aliyuncs.com
华南1（深圳）	green-cip.cn-shenzhen.aliyuncs.com	green-cip-vpc.cn-shenzhen.aliyuncs.com
西南1（成都）	green-cip.cn-chengdu.aliyuncs.com	暂无
新加坡	green-cip.ap-southeast-1.aliyuncs.com	green-cip-vpc.ap-southeast-1.aliyuncs.com	comment_multilingual_pro_cb、ugc_moderation_byllm_cb
英国（伦敦）	green-cip.eu-west-1.aliyuncs.com	暂无	comment_multilingual_pro_cb
美国（弗吉尼亚）	green-cip.us-east-1.aliyuncs.com	green-cip-vpc.us-east-1.aliyuncs.com
美国（硅谷）	green-cip.us-west-1.aliyuncs.com	暂无
德国（法兰克福）	green-cip.eu-central-1.aliyuncs.com	green-cip-vpc.eu-central-1.aliyuncs.com

说明

英国（伦敦）的配置复用新加坡区域控制台配置；美国（硅谷）的配置复用美国（弗吉尼亚）区域控制台配置。

计费信息：该接口为收费接口。仅对HTTP状态码为200的请求进行计量计费，产生其他错误码时不会计费。关于计费方式，请参见计费说明部分。

QPS限制

本接口的单用户QPS限制如下。超过限制，API调用会被限流，这可能会影响业务，请合理调用。

AI生成文本鉴别（text_aigc_detector）：50次/秒。
UGC场景文本审核大模型服务（ugc_moderation_byllm_pro、ugc_moderation_byllm、ugc_moderation_byllm_cb）：50次/秒。
其他服务：100次/秒。

说明

上述UGC场景文本审核大模型服务的QPS限制低于其他服务，如果业务调用量较大，请根据实际QPS限制做好流量控制。

请求参数

名称	类型	是否必须	示例值	描述
Service	String	是	comment_detection_pro	ugc_moderation_byllm_pro：UGC场景文本审核大模型服务_专业版 ugc_moderation_byllm：UGC场景文本审核大模型服务 ugc_moderation_byllm_cb：UGC场景文本审核大模型服务_出海版 nickname_detection_pro：用户昵称检测_专业版 chat_detection_pro：私聊互动内容检测_专业版 comment_detection_pro：公聊评论内容检测_专业版 ad_compliance_detection_pro：广告法合规检测_专业版 comment_multilingual_pro_cb：国际业务多语言检测_出海版 text_aigc_detector：AI生成文本鉴别说明国际多语言检测出海版更多信息请参考文本审核增强版多语言PLUS服务。
ServiceParameters	JSONString	是		审核服务需要的参数集。JSON字符串格式，关于每个字符串的描述，请参见表ServiceParameters。

表 1. ServiceParameters

名称	类型	是否必须	示例值	描述
content	String	是	检测内容	审核的文本内容。字数限制根据服务类型不同： `ugc_moderation_byllm_pro`/`ugc_moderation_byllm`/`ugc_moderation_byllm_cb`支持2000字； `text_aigc_detector`支持5000字，其他服务支持600字。
dataId	String	否	text0424****	检测对象对应的数据ID。由大小写英文字母、数字、下划线（_）、短划线（-）、英文句号（.）组成，不超过64个字符，可以用于唯一标识您的业务数据。
accountId	String	否	ID0728****	账户ID，标识一个账户的唯一ID，用于平台侧最终用户的记录。比如用户A和用户B聊天，A的聊天文本此处传入A，B的聊天文本此处传入B。说明账户ID可以结合上下文进行审核，如需开启请联系您的商务或者提工单申请。

返回参数

名称	类型	示例值	描述
Code	Integer	200	状态码。更多信息，请参见Code说明。
Data	JSONObject	{"Result":[...]}	审核结果数据，具体请参见Data。
Message	String	OK	请求消息的响应消息。
RequestId	String	AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****	请求ID。

表 2. Data

名称	类型	示例值	描述
Result	JSONArray		检测的风险标签、置信分等结果，具体请参见Result。
DataId	String	text0424****	检测对象对应的数据ID。说明如果在检测请求参数中传入了dataId，则此处返回对应的dataId。
AccountId	String	ID0728****	账户ID。说明如果在检测请求参数中传入了accountId，则此处返回对应的accountId。
RiskLevel	String	high	风险等级，根据设置的高低风险分返回，返回值包括： high：高风险（若命中自定义词库，风险等级默认为高风险） medium：中风险 low：低风险 none：未检测到风险说明高风险内容建议直接处置；中风险内容建议人工复查；低风险内容建议在高召回需求时再做处理，日常建议和未检测到风险做相同处理。风险分值可以在内容安全控制台配置。
ManualTaskId	String	m_tx_042407280307***	人审任务ID，用于查询人审结果。如果配置了人机审核检测，且命中了人审条件时，会返回此信息。具体配置请参考人机审核服务配置。
Ext	Object		文本审核辅助参考信息。更多信息，请参见Ext。

表 3. Result

名称	类型	示例值	描述
Label	String	political_xxx	文字内容检测运算后返回的标签，可能会检出多个标签和分值。支持的标签请参见风险标签部分。
Description	String	疑似色情内容	对Labal字段的说明。重要该字段为Label字段的解释说明，可能会变更调整，实际处理结果时建议处理Label字段，不要基于该字段进行结果处置。
Confidence	Float	81.22	置信分值，0到100分，保留到小数点后2位。部分标签无置信分。
Riskwords	String	AA,BB,CC	检测到的敏感词，多个词用逗号分隔，部分标签不会返回敏感词。
CustomizedHit	JSONArray	[{"LibName":"...","Keywords":"..."}]	当命中自定义库时，Label为customized，返回自定义库名称和自定义词，具体参见CustomizedHit。
RiskPositions	JSONArray		检测到敏感词的位置信息。更多信息，请参见RiskPositions。

表 4. CustomizedHit

名称	类型	示例值	描述
LibName	String	自定义库1	自定义库名称
Keywords	String	自定义词1,自定义词2	自定义词，多个词用逗号分隔。

表 5. Ext

名称	类型	示例值	描述
LlmContent	Object		返回的大模型检测结果。更多信息，请参见LlmContent。

表 6. LlmContent

名称	类型	示例值	描述
OutputText	String	疑似攻击辱骂内容	文本审核大模型原始检测结果。

表 7. RiskPositions

名称	类型	示例值	描述
RiskWord	String	AA	检测到的敏感词。
StartPos	Integer	10	敏感词的开始位置。
EndPos	Integer	12	敏感词的结束位置。

示例

请求示例

{
    "Service": "comment_detection_pro",
    "ServiceParameters": {
        "content": "testing content",
        "dataId": "text0424****"
    }
}

返回示例：

命中系统策略：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Label": "political_entity",
                "Description": "疑似政治实体",
                "Confidence": 100.0,
                "RiskWords": "词A,词B",
                "RiskPositions": [
                    {
                        "EndPos": 14,
                        "RiskWord": "词A",
                        "StartPos": 12
                    }
                ]
            },
            {
                "Label": "political_figure",
                "Description": "疑似政治人物",
                "Confidence": 100.0,
                "RiskWords": "词B,词C",
                "RiskPositions": [
                    {
                        "EndPos": 20,
                        "RiskWord": "词B",
                        "StartPos": 18
                    }
                ]
            }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

命中自定义词库：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Description": "命中自定义库",
                "CustomizedHit": [
                    {
                        "LibName": "自定义词库名称1",
                        "KeyWords": "自定义关键词"
                    }
                ],
                "Confidence": 100,
                "Label": "customized"
            }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

开启大模型功能返回信息：

{
    "Code": 200,
    "Data": {
        "Ext": {
            "LlmContent": {
                "OutputText": "疑似攻击辱骂内容"
            }
        },
        "Result": [
            {
                "Confidence": 100.0,
                "CustomizedHit": null,
                "Description": "疑似攻击辱骂内容",
                "Label": "inappropriate_profanity",
                "RiskWords": "违规词1,违规词2"
            }
        ],
        "RiskLevel": "high"
    },
    "Message": "OK",
    "RequestId": "12345-ABCDE-XXXXX-66666"
}

Code说明

Code	状态代码	说明
200	OK	请求成功。
400	BAD_REQUEST	请求有误。可能是请求参数不正确导致，请仔细检查请求参数。
408	PERMISSION_DENY	可能是您的账号未授权、账号欠费、账号未开通、账号被禁等。
500	GENERAL_ERROR	错误。可能是服务端临时出错。建议重试，若持续返回该错误码，请通过在线服务联系我们。
581	TIMEOUT	超时。建议重试，若持续返回该错误码，请通过在线服务联系我们。
588	EXCEED_QUOTA	请求频率超出配额。