语种识别

更新时间:
复制为 MD 格式

自动识别输入文本的语种,返回 ISO 语言代码。覆盖 24 个常用语向(含简体中文、繁体中文、阿拉伯语、日语、韩语、葡萄牙语、印尼语等),适用于搜索词、商品标题、即时会话等短文本场景。同步调用。

定位与适用场景

语种识别是多语言系统的"路由器"——根据识别结果决定走哪一路翻译模型、用什么本地化规则、展示什么 UI。Aidge 的语种识别针对电商短文本做了优化(标题 / 搜索词 / 客服对话),对于纯数字、缩写、品牌名混杂的电商文本鲁棒性较高。

典型场景:

  • 搜索词路由:跨境电商的搜索框接收多语言查询,识别后路由到对应的搜索引擎索引或翻译再搜索。

  • 客服会话分流:根据来访者语种自动分配对应语种客服或翻译机器人。

  • 翻译前置判断:在调用文本翻译前先识别源语种,避免在源 = 目标语言时做无效翻译。

  • 多语言素材分类:把混合语言的商品评论 / 详情按语种分桶,便于后续做语义分析。

接口

POST /ai/text/language/detection

快速开始

import json

data = json.dumps({"SourceText": "Bonjour, comment ça va?"})
result = make_signed_request("/ai/text/language/detection", data)

lang = result["Data"]["DetectedLanguage"]
print(f"识别语种: {lang}")  # "fr"

请求参数

参数

类型

必填

说明

SourceText

String

待识别的原始文本。短文本(标题 / 搜索词)通常 5 字以上准确率较稳;过短或纯符号 / 数字时识别可能不可靠。

响应字段

字段

类型

说明

Code

String

业务状态码。成功为 Success,其他为命名错误码。

Success

Boolean

本次调用是否成功。

RequestId

String

请求唯一标识。

Message

String

报错信息(仅失败时返回)。

Data.DetectedLanguage

String

识别出的语言代码,见下方支持语向表。

Data.UsageMap.InputCharacterCount

Number

本次输入字符数,用于计费核对。

完整示例

请求示例

{ "SourceText": "测试文本" }

响应示例

{
  "Code": "success",
  "Message": "Success",
  "Success": true,
  "RequestId": "2157065A-D6C8-1F3E-A4D0-B1234567890",
  "Data": {
    "DetectedLanguage": "zh",
    "UsageMap": { "InputCharacterCount": 4 }
  }
}

支持的语种(24 个)

#

语种名

Language Code

1

阿拉伯语

ar

2

孟加拉语

bn

3

德语

de

4

英语

en

5

西班牙语

es

6

法语

fr

7

希伯来语

he

8

印尼语

id

9

意大利语

it

10

日语

ja

11

韩语

ko

12

马来语

ms

13

荷兰语

nl

14

波兰语

pl

15

葡萄牙语

pt

16

俄语

ru

17

泰语

th

18

土耳其语

tr

19

乌克兰语

uk

20

乌尔都语

ur

21

越南语

vi

22

简体中文

zh

23

繁体中文

zh-tw

24

印地语

hi

使用建议

  • 避免无效翻译:在调用文本翻译前先识别源语种;如果 DetectedLanguage 已经等于目标语言,直接跳过翻译。

  • 短文本兜底:对于 ≤ 3 字符或全数字 / 全符号的文本,建议客户端做白名单跳过识别,直接落到默认语言。

  • 中繁简区分:本接口能区分 zhzh-tw。如果你的下游翻译模型不支持 zh-tw,需要客户端做映射。

  • 混合语言文本:返回主语种(占比最高的语言)。如需逐句识别,请客户端先分句再分别调用。

错误码

错误码

触发场景

InvalidParameter

SourceText 为空或超过长度上限。

InputContentBlocked

输入文本触发内容安全审核。

FreeQuotaExhausted

试用额度已耗尽。

InternalError

服务端内部错误。请保留 RequestId 联系技术支持。

完整错误码列表参见错误码

使用限制

  • 调用模式:同步。QPS 上限和超时设置详见频率限制

  • 支持语向:24 个,见上表。

  • 计费:按 InputCharacterCount 字符计费。详见翻译类计费。

后续步骤