语音审核增强版多语言服务

语音审核增强版升级音频模型能力,能够支持中文、英文和中英文混合的音频内容。结合国际化业务特性,提供审核策略和标签体系。本文介绍语音审核增强版多语言服务的内容以及使用方法。

功能特性

相比较语音审核1.0版本,语音审核增强版采用单独的策略和标签体系,满足国际化业务特性。同时提供更多功能特性,简化业务使用并辅助人工审核。

对比项

语音审核1.0版本

语音审核增强版

多语言能力

默认仅支持中文。

支持中文、英文和中英文混合。

审核能力

  • 采用单个模型,结合语言特性,策略兼顾准确和召回。

  • 默认不支持呻吟声模型。

  • 采用多种模型并行,结合语言和地区特性,策略更精确。

  • 新增呻吟声模型等,支持识别非语义特征。

标签体系

沿用中文场景下的标签体系,仅支持单个风险标签。

采用国际化标签体系,增加亵渎、地域等国际化标签,支持多个风险标签和细分标签。

接口功能

  • 采用语义断句的切片方案,语音切片时长分布在几秒至几十秒以内。

  • 仅返回有违规风险的语音切片内容,默认不提供语音切片临时地址。

  • 采用可调节的切片方案,语音切片为固定时长。固定切片时长能够提高人工复审的效率。

  • 返回所有语音切片内容和转写文本,提供语音切片临时地址用于人工复审。

国际化标签

语音审核增强版多语言服务采用国际化标签体系。如果内容存在多类风险,能够同时返回多个标签。标签分类包括但不限于如下所示:

标签类型

分类

一级标签(labels)

  • violence:暴恐

  • contraband:违禁品

  • sexuality:色情

  • profanity:亵渎辱骂

  • pullinTraffic:广告引流

  • regional:地域对立

  • C_customized:用户库命中

细分标签(riskTips)

细分标签采用xxx_yyy的格式返回。例如:contraband_Drugs

细分标签可用于定位具体原因,根据不同地区的合规要求进行处理。关于细分标签类型需联系运营人员。

服务性能

语音审核增强版采用高性能的核心引擎,能够高并发调度几十种模型和策略,提供更高时效性的服务保障。

服务性能

说明

文件大小

增强版支持音频文件的大小限制从200 MB提高到500 MB。

文件格式

支持音频文件格式:MP3、WAV、AAC、WMA、OGG、M4A、AMR。

支持视频文件格式:AVI、FLV、MP4、MPG、ASF、WMV、MOV、RMVB、RM。

请求频率(QPS)

提交任务请求频率(QPS)从50次/秒提升至100次/秒。

并发路数

增强版支持的默认并发路数限制从20路提高至50路。

说明

语音审核的QPS是指API每秒响应的请求数;并发路数是指系统中同时检测的语音文件或语音流数量。

计费说明

语音审核增强版服务支持按量后付费和资源包抵扣两种付费方式。

按量后付费

当您开通语音审核增强版服务后,默认付费方式是按量后付费,且按照实际用量结算当日费用,不调用服务不收费。

审核类型

支持的业务场景(服务)

计费单价

语音审核高级(audio_advanced)

音视频媒体多语言检测:audio_multilingual_cb

375元/万分钟,相当于2.25元/小时

资源包抵扣

如果您的审核量较大,或有相对固定的审核需求,建议预先购买资源包的方式。购买资源包规格越大,享受的折扣越大,支持叠加购买和使用。更多内容,请参见购买内容审核增强版抵扣资源包

该资源包用于内容审核增强版用量的抵扣,无法与内容安全流量包共享,具体的抵扣系数如下:

审核类型

支持的业务场景(服务)

抵扣系数

语音审核高级(audio_advanced)

音视频媒体多语言检测:audio_multilingual_cb

抵扣系数为50,表示每成功调用服务单位分钟,抵扣资源包的容量规格50次。

例如,购买的资源包的流量包容量规格为100次,当您需要审核的语音时长为1分钟,调用成功后抵扣流量包容量规格消耗50次,剩余50次。

接入指南

步骤一:开通服务

访问开通服务,开通语音审核增强版服务。

步骤二:为RAM用户授权

在接入SDK或者API之前,您需要为RAM用户授权。您可以为阿里云账号和RAM用户创建一个访问密钥(AccessKey)。在调用阿里云API时您需要使用AccessKey完成身份验证。获取方式,请参见获取AccessKey

  1. 使用阿里云账号(主账号)或具有管理权限的RAM用户登录RAM控制台

  2. 创建RAM用户。

    具体操作,请参见创建RAM用户

  3. 向RAM用户授权系统策略权限:AliyunYundunGreenWebFullAccess

    具体操作,请参见为RAM用户授权

    完成以上配置后,您可以使用RAM用户调用内容安全API。

步骤三:安装并接入SDK

目前支持的接入地域如下:

地域

外网接入地址

内网接入地址

新加坡

green-cip.ap-southeast-1.aliyuncs.com

green-cip-vpc.ap-southeast-1.aliyuncs.com

说明

如果需要其他语言的SDK示例代码,您可以通过OpenAPI开发者门户在线调试工具调试API接口,该工具会自动生成相应API的SDK调用示例代码。

API

使用说明

业务接口:https://green-cip.{region}.aliyuncs.com

您可以调用该接口创建语音内容检测任务。关于如何构造HTTP请求,请参见HTTP原生调用;您也可以直接选用已构造好的HTTP请求,更多信息,请参见语音审核增强版接入指南

  • 业务接口

    • 提交审核任务:VoiceModeration

    • 查询审核任务:VoiceModerationResult

  • 计费信息

    该接口为收费接口。仅对HTTP状态码为200的请求进行计量计费,产生其他错误码时不会计费。关于计费方式,请参见计费说明

提交审核任务

请求参数

名称

类型

是否必须

示例值

描述

Service

String

audio_multilingual_cb

审核服务类型。取值:audio_multilingual_cb

ServiceParameters

JSONString

审核服务需要的参数集。JSON字符串格式,关于每个字符串的描述,请参见ServiceParameters

表 1. ServiceParameters

名称

类型

是否必须

示例值

描述

url

String

http://aliyundoc.com/test.flv

待检测对象的URL:公网HTTP/HTTPS URL。

callback

String

http://aliyundoc.com

检测结果回调通知您的URL,支持使用HTTP和HTTPS协议的地址。该字段为空时,您必须定时轮询检测结果。

callback接口必须支持POST方法、UTF-8编码的传输数据,以及表单参数checksumcontent

内容安全按照以下规则和格式设置checksumcontent,调用您的callback接口返回检测结果。

  • checksum:字符串格式,由用户uid + seed + content拼成字符串,通过SHA256算法生成。用户UID即阿里云账号ID,可以在阿里云控制台查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与checksum做一次校验。

    说明

    用户UID必须是阿里云账号的UID,而不是RAM用户的UID。

  • content:JSON字符串格式,请自行解析反转成JSON对象。关于content结果的示例,请参见查询检测结果的返回示例。

说明

您的服务端callback接口收到内容安全推送的结果后,如果返回的HTTP状态码为200,则表示接收成功,其他的HTTP状态码均视为接收失败。接收失败时,内容安全将最多重复推送16次检测结果,直到接收成功。重复推送16次后仍未接收成功,则不再推送,建议您检查callback接口的状态。

seed

String

abc****

随机字符串,该值用于回调通知请求中的签名。

由英文字母、数字、下划线(_)组成,不超过64个字符。由您自定义,用于在接收到内容安全的回调通知时校验请求由阿里云内容安全服务发起。

说明

当使用callback时,该字段必须提供。

cryptType

String

SHA256

使用回调通知时(callback),设置对回调通知内容进行加密的算法。内容安全会将返回结果(由用户uid + seed + content拼接的字符串)按照您设置的加密算法加密后,再发送到您的回调通知地址。取值:

  • SHA256(默认):使用SHA256加密算法。

  • SM3:使用国密HMAC-SM3加密算法,返回十六进制的字符串,且字符串由小写字母和数字组成。例如,abc经国密SM3加密后返回66c7f0f462eeedd9d1f2d46bdc10e4e24167c4875cf2f7a2297da02b8f4ba8e0。

返回参数

名称

类型

示例值

描述

Code

Integer

200

错误码,和HTTP状态码一致。更多信息,请参见错误码

Data

JSONObject

{"taskId": "AAAAA-BBBBB"}

审核结果数据。

Message

String

OK

请求消息的响应消息。

RequestId

String

AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****

请求ID。

示例

请求示例

{
  "service":"audio_multilingual_cb",
  "serviceParameters":"{\"cryptType\":\"SHA256\",\"seed\":\"abc***123\",\"callback\":\"https://aliyun.com/callback\",\"url\":\"http://aliyundoc.com/test.flv"}"
}

正常返回示例

{
  "code":200,
  "data":{
    "taskId":"AAAAA-BBBBB"
  },
  "message":"SUCCESS",
  "requestId":"AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

查询任务结果

任务审核完成后,查询结果会返回全部语音片段数据。

请求参数

名称

类型

是否必须

示例值

描述

Service

String

audio_multilingual_cb

审核服务类型。

ServiceParameters

JSONString

审核服务需要的参数集。JSON字符串格式,关于每个字符串的描述,请参见ServiceParameters

表 2. ServiceParameters

名称

类型

是否必须

示例值

描述

taskId

String

AAAAA-BBBBB

提交任务返回的ID。

返回参数

名称

类型

示例值

描述

Code

Integer

200

错误码,和HTTP状态码一致。更多信息,请参见错误码

Data

JSONObject

{"url":xxxx,"results":xxx}

返回参数JSON格式。

Message

String

OK

请求消息的响应消息。

RequestId

String

AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****

请求ID。

表 3. Data

名称

类型

示例值

描述

url

String

https://aliyundoc.com

检测对象的URL。

sliceDetails

JSONArray

返回语音片段的详细结果。具体内容,请参见sliceDetails

表 4. sliceDetails

名称

类型

示例值

描述

startTime

Integer

0

句子开始的时间,单位:秒。

endTime

Integer

4065

句子结束的时间,单位:秒。

startTimestamp

Integer

1678854649720

切片开始时间戳,单位:毫秒。

endTimestamp

Integer

1678854649720

切片结束时间戳,单位:毫秒。

text

String

恶心的

语音转换成文本内容。

url

String

https://aliyundoc.com

语音片段的临时访问地址。该地址有效时间为30分钟,需要及时转存。

labels

String

pullinTraffic

标签,多个标签用英文逗号(,)分隔。包括:

  • violence:暴恐

  • contraband:违禁品

  • sexuality:色情

  • profanity:亵渎辱骂

  • pullinTraffic:广告引流

  • regional:地域对立

  • C_customized:用户库命中

riskWords

String

AAA,BBB,CCC

命中风险词,多个词以逗号分隔。

riskTips

String

sexuality_Suggestive

细分标签,多个标签以逗号分隔。

extend

String

{\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\"}

保留字段。

示例

请求示例

{
  "service":"audio_multilingual_cb",
  "serviceParameters":"{\"taskId\":\"AAAAA-BBBBB"}"
}

正常返回示例

{
  "code":200,
  "data":{
    "sliceDetails":[
      {
        "endTime":4065,
        "labels":"pullinTraffic",
        "startTime":0,
        "text":"pxxxxy xxxxxx",
        "riskTips":"sexuality_Suggestive",
        "riskWords":"pxxxxy",
        "url":"https://aliyundoc.com"
      }
    ]
  },
  "message":"OK",
  "requestId":"AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

回调消息格式

回调消息的数据为JSON格式的表单如下所示:

字段名

字段类型

描述

checksum

String

校验码,字符串格式,由用户uid + seed + content拼成字符串,通过SHA256算法生成。

用户UID即阿里云账号ID,可以在阿里云控制台查询。为防篡改,您可以在获取到推送结果时,按上述算法生成字符串,与checksum做一次校验。

说明

用户UID必须是阿里云账号的UID,而不是RAM用户的UID。

taskId

String

回调消息的任务ID。

content

String

序列化后的检测结果,JSON字符串格式,请自行解析反转成JSON对象。关于content结果的格式,与查询任务结果的返回一致。

错误码

以下为接口返回code的含义说明,系统仅对code返回为200的请求计量计费,其他code不会计费。

Code

说明

200

请求正常。

280

检测中。

400

请求参数为空。

401

请求参数错误。

402

请求参数长度不符合接口规定,请检查并修改。

403

请求超过QPS限制,请检查并调整QPS限制。

404

传入的文件下载遇到错误,请检查或重试。

405

传入的文件下载超时,可能是因为文件无法访问,请检查调整后重试。

406

传入的文件超过大小限制,请检测调整后重试。

407

传入的文件格式暂不支持,请检查调整后重试。

408

该账号无权限调用该接口,可能是账号未开通或者已欠费,或者调用账号未被授权访问。

480

检测并发路数超过限制,请检查并调整并发。

500

系统异常。