语种识别
自动识别输入文本的语种,返回 ISO 语言代码。覆盖 24 个常用语向(含简体中文、繁体中文、阿拉伯语、日语、韩语、葡萄牙语、印尼语等),适用于搜索词、商品标题、即时会话等短文本场景。同步调用。
定位与适用场景
语种识别是多语言系统的"路由器"——根据识别结果决定走哪一路翻译模型、用什么本地化规则、展示什么 UI。Aidge 的语种识别针对电商短文本做了优化(标题 / 搜索词 / 客服对话),对于纯数字、缩写、品牌名混杂的电商文本鲁棒性较高。
典型场景:
-
搜索词路由:跨境电商的搜索框接收多语言查询,识别后路由到对应的搜索引擎索引或翻译再搜索。
-
客服会话分流:根据来访者语种自动分配对应语种客服或翻译机器人。
-
翻译前置判断:在调用文本翻译前先识别源语种,避免在源 = 目标语言时做无效翻译。
-
多语言素材分类:把混合语言的商品评论 / 详情按语种分桶,便于后续做语义分析。
接口
POST /ai/text/language/detection
快速开始
import json
data = json.dumps({"SourceText": "Bonjour, comment ça va?"})
result = make_signed_request("/ai/text/language/detection", data)
lang = result["Data"]["DetectedLanguage"]
print(f"识别语种: {lang}") # "fr"
请求参数
|
参数 |
类型 |
必填 |
说明 |
|
|
String |
是 |
待识别的原始文本。短文本(标题 / 搜索词)通常 5 字以上准确率较稳;过短或纯符号 / 数字时识别可能不可靠。 |
响应字段
|
字段 |
类型 |
说明 |
|
|
String |
业务状态码。成功为 |
|
|
Boolean |
本次调用是否成功。 |
|
|
String |
请求唯一标识。 |
|
|
String |
报错信息(仅失败时返回)。 |
|
|
String |
识别出的语言代码,见下方支持语向表。 |
|
|
Number |
本次输入字符数,用于计费核对。 |
完整示例
请求示例
{ "SourceText": "测试文本" }
响应示例
{
"Code": "success",
"Message": "Success",
"Success": true,
"RequestId": "2157065A-D6C8-1F3E-A4D0-B1234567890",
"Data": {
"DetectedLanguage": "zh",
"UsageMap": { "InputCharacterCount": 4 }
}
}
支持的语种(24 个)
|
# |
语种名 |
Language Code |
|
1 |
阿拉伯语 |
|
|
2 |
孟加拉语 |
|
|
3 |
德语 |
|
|
4 |
英语 |
|
|
5 |
西班牙语 |
|
|
6 |
法语 |
|
|
7 |
希伯来语 |
|
|
8 |
印尼语 |
|
|
9 |
意大利语 |
|
|
10 |
日语 |
|
|
11 |
韩语 |
|
|
12 |
马来语 |
|
|
13 |
荷兰语 |
|
|
14 |
波兰语 |
|
|
15 |
葡萄牙语 |
|
|
16 |
俄语 |
|
|
17 |
泰语 |
|
|
18 |
土耳其语 |
|
|
19 |
乌克兰语 |
|
|
20 |
乌尔都语 |
|
|
21 |
越南语 |
|
|
22 |
简体中文 |
|
|
23 |
繁体中文 |
|
|
24 |
印地语 |
|
使用建议
-
避免无效翻译:在调用文本翻译前先识别源语种;如果
DetectedLanguage已经等于目标语言,直接跳过翻译。 -
短文本兜底:对于 ≤ 3 字符或全数字 / 全符号的文本,建议客户端做白名单跳过识别,直接落到默认语言。
-
中繁简区分:本接口能区分
zh与zh-tw。如果你的下游翻译模型不支持zh-tw,需要客户端做映射。 -
混合语言文本:返回主语种(占比最高的语言)。如需逐句识别,请客户端先分句再分别调用。
错误码
|
错误码 |
触发场景 |
|
|
|
|
|
输入文本触发内容安全审核。 |
|
|
试用额度已耗尽。 |
|
|
服务端内部错误。请保留 |
完整错误码列表参见错误码。
使用限制
-
调用模式:同步。QPS 上限和超时设置详见频率限制。
-
支持语向:24 个,见上表。
-
计费:按
InputCharacterCount字符计费。详见翻译类计费。