短语音同步检测提供基于HTTP和HTTPS协议的同步音频检测接口,该接口可以实时将语音的内容转换为文字,并返回给您内容审核的结果以及风险标签,帮助您提高审核效率。本文介绍了调用短语音同步检测接口(/green/voice/syncscan)进行语音内容审核的方法。
使用说明
业务接口:/green/voice/syncscan,表示语音同步检测。
您可以调用该接口创建语音同步检测任务。关于如何构造HTTP请求,请参见请求结构;您也可以直接选用已构造好的HTTP请求,更多信息,请参见SDK概览。
说明 语音检测默认识别中文普通话,如需识别其他语种(例如,英语、日语、西班牙语、阿拉伯语、法语、印尼语、越南语)或方言(粤语、四川话、湖北话、陕西话、山西话、河南话、东北话、天津话、甘肃话、贵州话、云南话、江西话、广西话、云南话、湖南话、山东话、苏州话、浙江话、上海话、闽南语),请联系商务经理。
- 计费信息:
该接口为收费接口。关于计费方式,请参见内容安全产品定价。
- 音频文件要求:
- 支持的音频文件大小小于20 MB。
- 支持的语音文件时长小于1分钟。
- 支持的音频文件格式:MP3、WAV、AAC、WMA、OGG、M4A、M3U8。
- 支持以下包含音频的视频文件格式:AVI、FLV、MP4、MPG、ASF、WMV、MOV、RMVB、RM。
QPS限制
本接口的单用户QPS限制为50次/秒。超过限制,API调用会被限流,这可能会影响您的业务,请合理调用。
请求参数
名称 | 类型 | 是否必选 | 示例值 | 描述 |
---|---|---|---|---|
bizType | String | 否 | default | 该字段用于标识您的业务场景。您可以通过内容安全控制台创建业务场景(具体操作,请参见自定义机审标准)。 |
scenes | StringArray | 是 | antispam | 检测场景,唯一取值:antispam。 |
tasks | JSONArray | 是 | 指定检测对象,JSON数组中的每个元素是一个检测任务结构体。最多支持100个元素,即每次提交100条内容进行检测,支持100个元素的前提是需要将并发任务调整到100个以上。关于每个元素的具体结构描述,请参见task。 |
名称 | 类型 | 是否必选 | 示例值 | 描述 |
---|---|---|---|---|
clientInfo | JSONObject | 否 | {"userId":"120234234","userNick":"Mike","userType":"others"} | 客户端信息,请参见公共参数中的公共查询参数。 服务器会把全局的clientInfo和此处独立的clientInfo合并。 说明 独立的clientInfo优先级更高。 |
dataId | String | 否 | abc_123 | 检测对象对应的数据ID。 由大小写英文字母、数字、下划线(_)、短划线(-)、英文句号(.)组成,不超过128个字符,可以用于唯一标识您的业务数据。 |
url | String | 是 | http://aliyundoc.com/test.mp3 | 检测对象的URL。
|
返回数据
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
code | Integer | 200 | 错误码,和HTTP状态码一致。 更多信息,请参见公共错误码。 |
msg | String | OK | 请求消息的响应消息。 |
dataId | String | abc_123 | 检测对象对应的数据ID。 说明 如果在检测请求参数中传入了dataId,则此处返回对应的dataId。 |
taskId | String | vc_f_1OsjIYTukH@4@AXkIQ9xxx-1ov52Y | 检测任务的ID。 |
url | String | http://aliyundoc.com/test.mp3 | 检测对象的URL。
|
results | JSONArray | 检测成功(code=200)时,返回的检测结果。返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述见result。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
scene | String | antispam | 检测场景,和调用请求中的场景对应。唯一取值:antispam。 |
label | String | customized | 检测结果的分类。取值:
|
suggestion | String | block | 建议您执行的后续操作,取值:
|
rate | Float | 99.91 | 置信度分数,取值范围:0(表示置信度最低)~100(表示置信度最高)。 如果suggestion为pass,则置信度越高,表示内容正常的可能性越高;如果suggestion为review或block,则置信度越高,表示内容违规的可能性越高。 重要 建议您参考suggestion和label(或者部分接口返回的sublabel)结果用于内容违规判定。 |
details | JSONArray | 语音对应的文本详情,每一句文本对应一个元素,可以包含一个或者多个元素。关于每个元素的结构描述,请参见detail。 |
名称 | 类型 | 示例值 | 描述 |
---|---|---|---|
startTime | Integer | 0 | 句子开始的时间戳,单位:秒。 |
endTime | Integer | 4065 | 句子结束的时间戳,单位:秒。 |
text | String | 恶心的 | 语音转换成文本的结果。 |
label | String | politics | 检测结果的分类。取值:
|
persons | JSONArray | [{"name":"敏感人名A"}] | 声纹识别结果,如果命中了敏感人物的声纹,则会返回该字段。 具体结构如下:
说明 默认不返回该字段。如果有需要,请联系商务经理。 |
keyword | String | 恶心 | 如果命中了用户自定义关键词,返回命中的关键词。 |
libName | String | test | 如果命中了用户自定义关键词,返回关键词所在的词库。 |
示例
请求示例
http(s)://[Endpoint]/green/voice/syncscan
&<公共请求参数>{
"scenes":[
"antispam"
],
"tasks":[
{
"dataId":"abcd-123",
"url":"http://aliyundoc.com/test.mp3"
}
]
}
返回示例
{
"msg":"OK",
"code":200,
"data":[
{
"code":200,
"dataId":"abcd-123",
"results":[
{
"rate":99.91,
"suggestion":"block",
"details":[
{
"libName":"test",
"startTime":0,
"endTime":4065,
"label":"customized",
"text":"恶心的",
"keyword":"恶心"
},
{
"startTime":4430,
"endTime":10065,
"label":"normal",
"persons": [
{
"name": "敏感人名A"
}
],
"text":"哈哈哈"
},
{
"libName":"语音",
"startTime":11670,
"endTime":14685,
"label":"customized",
"text":"大甩卖",
"keyword":"甩卖"
},
{
"startTime":14685,
"endTime":16065,
"label":"ad",
"text":"12345"
}
],
"label":"customized"
}
],
"taskId":"vc_f_1OsjIYTukH@4@AXkIQ9xxx-1ov52Y"
}
],
"requestId":"5A7A6198-6960-4DDC-B67E-58A111A4B20F"
}