提升识别准确率-大模型服务平台百炼(Model Studio)-阿里云帮助中心

概述

部分业务词汇（如产品名、专有名词、行业术语）不在模型通用词表中，识别准确率较低。阿里云百炼语音识别提供自定义热词和上下文增强两种方式，提升这类词汇的识别效果。

自定义热词与上下文增强的区别

阿里云百炼语音识别提供两种处理专业术语的方式，适用模型和接口不同：

维度	自定义热词	上下文增强
原理	提供带权重的词汇表，模型在解码时提升匹配概率	传入对话历史或领域语料，模型利用上下文修正识别结果
适用模型	Fun-ASR、Paraformer 系列（实时 + 非实时）	fun-asr-realtime、fun-asr-realtime-2025-11-07（实时）；fun-asr-flash-2026-06-15（非实时）
适用场景	词汇已知且相对稳定，需要跨请求复用同一词表（如产品名、医学术语）	词汇随对话动态变化，或需要通过上下文帮助模型理解专有名词（如会议纪要中的参会人、客服对话中的业务术语）
配置方式	预先创建热词列表，调用时传入列表 ID	每次请求时传入对话历史或领域文本。非实时通过 `input.messages`，实时通过 `input.context`

前提条件

已获取API Key并将其配置到环境变量。
如果通过 DashScope SDK 调用，需要安装最新版SDK。

自定义热词

支持的模型与地域

华北2（北京）

调用以下模型时，请选择北京地域的API Key：

Fun-ASR：
- 实时语音识别：fun-asr-realtime、fun-asr-realtime-2026-02-28、fun-asr-realtime-2025-11-07、fun-asr-realtime-2025-09-15、fun-asr-flash-8k-realtime、fun-asr-flash-8k-realtime-2026-01-28
- 非实时语音识别：fun-asr、fun-asr-2025-11-07、fun-asr-2025-08-25、fun-asr-mtl、fun-asr-mtl-2025-08-25
Paraformer：
- 实时语音识别：paraformer-realtime-v2、paraformer-realtime-8k-v2
- 非实时语音识别：paraformer-v2、paraformer-8k-v2

新加坡

调用以下模型时，请选择新加坡地域的API Key：

Fun-ASR：

实时语音识别：fun-asr-realtime、fun-asr-realtime-2025-11-07
非实时语音识别：fun-asr、fun-asr-2025-11-07、fun-asr-2025-08-25、fun-asr-mtl、fun-asr-mtl-2025-08-25

快速开始

工作流程

先创建热词列表，再在语音识别时引用其 ID：

创建热词列表。

调用创建热词列表接口，必须指定 target_model（Java 中为 targetModel），表明该列表所属的语音识别模型。

如已有热词列表（可通过查询所有热词列表接口查看），跳过此步。
调用语音识别接口并传入热词列表 ID。

语音识别使用的模型必须与创建时指定的 target_model（Java 中为 targetModel）一致，否则热词不生效。

示例代码

完整流程示例：创建热词列表 → 调用语音识别 → 删除列表。示例音频：asr_example.wav。

说明

热词管理 API 与语音识别 API 必须使用同一账号，否则识别接口无法访问对应的热词列表。

Python

import dashscope
from dashscope.audio.asr import *
import os


# 北京与新加坡地域的 API Key 不同。获取 API Key：https://help.aliyun.com/zh/model-studio/get-api-key
# 未配置环境变量时，将下行替换为：dashscope.api_key = "sk-xxx"
dashscope.api_key = os.environ.get('DASHSCOPE_API_KEY')

# 以下为华北2（北京）地域的配置，调用时请将"{WorkspaceId}"替换为真实的业务空间ID，各地域的配置不同。
dashscope.base_http_api_url = 'https://{WorkspaceId}.cn-beijing.maas.aliyuncs.com/api/v1'

# 以下为华北2（北京）地域的配置，调用时请将"{WorkspaceId}"替换为真实的业务空间ID，各地域的配置不同。
dashscope.base_websocket_api_url = 'wss://{WorkspaceId}.cn-beijing.maas.aliyuncs.com/api-ws/v1/inference'

prefix = 'testpfx'
target_model = "fun-asr-realtime"

my_vocabulary = [
    {"text": "语音实验室", "weight": 4}
]

service = VocabularyService()
vocabulary_id = service.create_vocabulary(
      prefix=prefix,
      target_model=target_model,
      vocabulary=my_vocabulary)

try:
    if service.query_vocabulary(vocabulary_id)['status'] == 'OK':
        recognition = Recognition(model=target_model,
                              format='wav',
                              sample_rate=16000,
                              callback=None,
                              vocabulary_id=vocabulary_id)
        result = recognition.call('asr_example.wav')
        print(result.output)
finally:
    # 无论识别成功与否都删除热词列表，避免占用配额
    service.delete_vocabulary(vocabulary_id)

Java

import com.alibaba.dashscope.audio.asr.recognition.Recognition;
import com.alibaba.dashscope.audio.asr.recognition.RecognitionParam;
import com.alibaba.dashscope.audio.asr.vocabulary.Vocabulary;
import com.alibaba.dashscope.audio.asr.vocabulary.VocabularyService;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.Constants;
import com.google.gson.JsonArray;
import com.google.gson.JsonObject;

import java.io.File;
import java.util.ArrayList;
import java.util.List;

public class Main {
    // 北京与新加坡地域的 API Key 不同。获取 API Key：https://help.aliyun.com/zh/model-studio/get-api-key
    // 未配置环境变量时，将下行替换为：public static String apiKey = "sk-xxx"
    public static String apiKey = System.getenv("DASHSCOPE_API_KEY");

    public static void main(String[] args) throws NoApiKeyException, InputRequiredException {
        // 以下为华北2（北京）地域的配置，调用时请将"{WorkspaceId}"替换为真实的业务空间ID，各地域的配置不同。
        Constants.baseHttpApiUrl = "https://{WorkspaceId}.cn-beijing.maas.aliyuncs.com/api/v1";
        // 以下为华北2（北京）地域的配置，调用时请将"{WorkspaceId}"替换为真实的业务空间ID，各地域的配置不同。
        Constants.baseWebsocketApiUrl = "wss://{WorkspaceId}.cn-beijing.maas.aliyuncs.com/api-ws/v1/inference";

        String targetModel = "fun-asr-realtime";

        JsonArray vocabularyJson = new JsonArray();
        List<Hotword> wordList = new ArrayList<>();
        wordList.add(new Hotword("语音实验室", 4));

        for (Hotword word : wordList) {
            JsonObject jsonObject = new JsonObject();
            jsonObject.addProperty("text", word.text);
            jsonObject.addProperty("weight", word.weight);
            vocabularyJson.add(jsonObject);
        }

        VocabularyService service = new VocabularyService(apiKey);
        Vocabulary vocabulary = service.createVocabulary(targetModel, "testpfx", vocabularyJson);

        try {
            if ("OK".equals(service.queryVocabulary(vocabulary.getVocabularyId()).getStatus())) {
                Recognition recognizer = new Recognition();
                RecognitionParam param =
                        RecognitionParam.builder()
                                .model(targetModel)
                                .apiKey(apiKey)
                                .format("wav")
                                .sampleRate(16000)
                                .vocabularyId(vocabulary.getVocabularyId())
                                .build();

                try {
                    System.out.println("识别结果：" + recognizer.call(param, new File("asr_example.wav")));
                } catch (Exception e) {
                    e.printStackTrace();
                } finally {
                    // 关闭 WebSocket 连接
                    recognizer.getDuplexApi().close(1000, "bye");
                }
            }
        } finally {
            // 无论识别成功与否都删除热词列表，避免占用配额
            service.deleteVocabulary(vocabulary.getVocabularyId());
        }
        System.exit(0);
    }
}

class Hotword {
    String text;
    int weight;

    public Hotword(String text, int weight) {
        this.text = text;
        this.weight = weight;
    }
}

热词格式

热词以 JSON 数组提交，数组元素定义单个热词及其属性。

示例：提升电影名称的识别率。

[
    {"text": "赛德克巴莱", "weight": 4, "lang": "zh"},
    {"text": "Seediq Bale", "weight": 4, "lang": "en"},
    {"text": "夏洛特烦恼", "weight": 4, "lang": "zh"},
    {"text": "Goodbye Mr. Loser", "weight": 4, "lang": "en"},
    {"text": "阙里人家", "weight": 4, "lang": "zh"},
    {"text": "Confucius' Family", "weight": 4, "lang": "en"}
]

字段说明：

字段	类型	是否必填	说明
text	string	是	热词文本，需为实际词语而非任意字符组合，且语言必须在所选模型的支持范围内。长度限制参见热词文本规范。
weight	int	是	热词权重。取值范围 [1, 5]，推荐 4。权重越高，模型越倾向于输出该词。调优参见调整热词权重。
lang	string	否	语言代码，限定该热词作用的语种。语种未知时可省略。注意：`language_hints` 是语音识别接口的参数（非热词接口），用于声明音频语种。一旦设置，仅匹配 `language_hints` 所指定语种的热词生效，其他语种的热词将被忽略。

热词文本规范

热词文本必须为实际词语，长度限制如下：

含非 ASCII 字符时：总字符数（汉字、日文假名、韩文谚文、西里尔字母等非 ASCII 字符与 ASCII 字符合计）不超过 15 个。

示例：
- ✅ "厄洛替尼盐酸盐"（7 字符）
- ✅ "EGFR抑制剂"（7 字符，其中 EGFR 占 4 个 ASCII 字符）
- ✅ "こんにちは"（5 字符）
- ✅ "Фенибут Белфарм"（15 字符，含中间空格）
- ❌ "Клофелин Белмедпрепараты"（24 字符）
纯 ASCII 字符时：按空格切分后的片段数不超过 7 个。

示例：
- ✅ "Exothermic reaction" → 2 个片段
- ✅ "Human immunodeficiency virus type 1" → 5 个片段
- ❌ "The effect of temperature variations on enzyme activity in biochemical reactions" → 11 个片段

调优热词效果

调整热词权重

权重控制模型对热词的偏好程度，合理设置可在提升目标词识别率的同时避免误识别。

权重	效果	适用场景
1~2	轻微偏好	热词与常用词发音相似，需避免过度纠偏
3~4	明显偏好（推荐）	大多数场景的最佳起始值
5	强制偏好	该词在音频中频繁出现且几乎不会与其他词混淆。权重过高可能导致发音相近的其他词被错误识别为热词。

建议从 weight=4 起测，根据识别效果逐步调整。

设计热词表

按场景分组：为不同业务场景建立独立的热词列表（如医疗术语、产品名称各建一个），便于维护与复用。
多语种混合：同一热词列表可混入不同语种的热词，通过 lang 字段区分。语音识别时指定 language_hints 后，仅匹配该语种的热词生效。
定期清理：删除不再使用的热词列表以释放额度（每账号上限 10 个）。

限制与计费

限制项	说明
热词列表数量	每账号 10 个，所有模型共享。
单个列表热词数	每个热词列表最多 500 个热词。
计费	免费。

上下文增强

支持的模型与地域

华北2（北京）

调用以下模型时，请选择北京地域的API Key：

Fun-ASR：

实时语音识别：fun-asr-realtime、fun-asr-realtime-2025-11-07
非实时语音识别：fun-asr-flash-2026-06-15

新加坡

调用以下模型时，请选择新加坡地域的API Key：

Fun-ASR：

实时语音识别：fun-asr-realtime、fun-asr-realtime-2025-11-07
非实时语音识别：fun-asr-flash-2026-06-15

快速开始

上下文增强无需预先创建资源，在语音识别请求中直接传入上下文参数即可生效：

非实时语音识别：在 HTTP 请求的 input.messages 中传入上下文消息，置于音频消息之前。
实时语音识别：在 WebSocket run-task 事件的 input.context 中传入上下文消息；任务执行中如需更新，发送 continue-task 事件。DashScope SDK 已封装该协议，通过参数直接传入即可。

使用场景：通过传入对话历史或领域术语作为上下文，可显著提升专有词汇（人名、地名、产品术语等）的转写准确率。适用于以下场景：

词表增强：通过 user（input_text）传入领域相关的词表或术语，帮助模型准确识别专业词汇。
多轮对话上下文：在 ASR 与大语言模型结合的语音交互场景中，将前几轮的识别结果（user / input_text）和大模型回复（assistant / text）传入，利用对话历史提升当前轮次的识别准确率。

重要

消息条数限制：引擎最多保留最近 5 轮的上下文内容。词表增强通常只需 1 条消息，不受此限制影响。超出时，早期消息会被自动忽略，不会报错。
文本长度限制：每轮上下文的文本总长度（同一轮中所有 user 和 assistant 消息的 text 字段长度之和）不超过 400 个字符（按字符数计算，每个字符计为 1，包括字母、汉字、数字、空格和标点等）。超出部分会从末尾截断，不会返回错误。多轮上下文中，每轮独立计算，互不影响。
上下文机制：上下文主要通过词表匹配方式生效，text 字段中需包含音频里待识别的原词（如“Kubernetes”、“Bulge Bracket”）。仅传入语义相关但不包含原词的描述，纠正效果有限。

非实时语音识别

通过 input.messages 传入上下文。其中 user 角色 + input_text 类型用于传入前几轮的识别结果或领域相关的词表，assistant 角色用于传入前几轮大模型的回复内容（可选）。上下文消息置于音频消息之前，详见DashScope同步调用（Fun-ASR-Flash）。

词表增强

通过 user（input_text）传入领域术语词表，无需 assistant 消息。

{
    "model": "fun-asr-flash-2026-06-15",
    "input": {
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_text",
                        "text": "Kubernetes Istio Envoy service mesh sidecar proxy"
                    }
                ]
            },
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_audio",
                        "input_audio": {
                            "data": "当前待识别的音频URL或Base64"
                        }
                    }
                ]
            }
        ]
    },
    "parameters": {}
}

多轮对话上下文

传入前几轮的识别结果（user / input_text）和大模型回复（assistant / text）。

{
    "model": "fun-asr-flash-2026-06-15",
    "input": {
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_text",
                        "text": "前轮用户语音的识别结果"
                    }
                ]
            },
            {
                "role": "assistant",
                "content": [
                    {
                        "type": "text",
                        "text": "前轮大模型的回复内容"
                    }
                ]
            },
            {
                "role": "user",
                "content": [
                    {
                        "type": "input_audio",
                        "input_audio": {
                            "data": "当前待识别的音频URL或Base64"
                        }
                    }
                ]
            }
        ]
    },
    "parameters": {}
}

实时语音识别

实时语音识别通过 input.context 传入上下文，音频通过 WebSocket 二进制帧发送。任务执行中如需更新上下文，发送 continue-task 事件。WebSocket 事件格式详见客户端事件，DashScope SDK 参数详见Python SDK（≥ 1.25.23）和Java SDK（≥ 2.22.23）。

词表增强

通过 user（input_text）传入领域术语词表，无需 assistant 消息。

WebSocket

{
    "header": {
        "action": "run-task",
        "task_id": "2bf83b9a-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "task_group": "audio",
        "task": "asr",
        "function": "recognition",
        "model": "fun-asr-realtime",
        "parameters": {
            "format": "pcm",
            "sample_rate": 16000
        },
        "input": {
            "context": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "input_text",
                            "text": "Kubernetes Istio Envoy service mesh sidecar proxy"
                        }
                    ]
                }
            ]
        }
    }
}

Python SDK

from dashscope.audio.asr import Recognition

recognition = Recognition(
    model='fun-asr-realtime',
    format='wav',
    sample_rate=16000,
    callback=None)

context = {
    "context": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_text",
                    "text": "Kubernetes Istio Envoy service mesh sidecar proxy"
                }
            ]
        }
    ]
}

result = recognition.call('audio.wav', raw_input=context)
print(result.output)

Java SDK

Map<String, Object> userContent = new HashMap<>();
userContent.put("type", "input_text");
userContent.put("text", "Kubernetes Istio Envoy service mesh sidecar proxy");

Map<String, Object> userMessage = new HashMap<>();
userMessage.put("role", "user");
userMessage.put("content", Arrays.asList(userContent));

Map<String, Object> input = new HashMap<>();
input.put("context", Arrays.asList(userMessage));

RecognitionParam param = RecognitionParam.builder()
        .model("fun-asr-realtime")
        .format("wav")
        .sampleRate(16000)
        .input(input)
        .build();

Recognition recognizer = new Recognition();
System.out.println(recognizer.call(param, new File("audio.wav")));
recognizer.getDuplexApi().close(1000, "bye");

多轮对话上下文

传入前几轮的识别结果（user / input_text）和大模型回复（assistant / text）。

WebSocket

{
    "header": {
        "action": "run-task",
        "task_id": "2bf83b9a-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
        "streaming": "duplex"
    },
    "payload": {
        "task_group": "audio",
        "task": "asr",
        "function": "recognition",
        "model": "fun-asr-realtime",
        "parameters": {
            "format": "pcm",
            "sample_rate": 16000
        },
        "input": {
            "context": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "input_text",
                            "text": "前轮用户语音的识别结果"
                        }
                    ]
                },
                {
                    "role": "assistant",
                    "content": [
                        {
                            "type": "text",
                            "text": "前轮大模型的回复内容"
                        }
                    ]
                }
            ]
        }
    }
}

Python SDK

from dashscope.audio.asr import Recognition

recognition = Recognition(
    model='fun-asr-realtime',
    format='wav',
    sample_rate=16000,
    callback=None)

context = {
    "context": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_text",
                    "text": "前轮用户语音的识别结果"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "type": "text",
                    "text": "前轮大模型的回复内容"
                }
            ]
        }
    ]
}

result = recognition.call('audio.wav', raw_input=context)
print(result.output)

Java SDK

Map<String, Object> userContent = new HashMap<>();
userContent.put("type", "input_text");
userContent.put("text", "前轮用户语音的识别结果");

Map<String, Object> assistantContent = new HashMap<>();
assistantContent.put("type", "text");
assistantContent.put("text", "前轮大模型的回复内容");

Map<String, Object> userMessage = new HashMap<>();
userMessage.put("role", "user");
userMessage.put("content", Arrays.asList(userContent));

Map<String, Object> assistantMessage = new HashMap<>();
assistantMessage.put("role", "assistant");
assistantMessage.put("content", Arrays.asList(assistantContent));

Map<String, Object> input = new HashMap<>();
input.put("context", Arrays.asList(userMessage, assistantMessage));

RecognitionParam param = RecognitionParam.builder()
        .model("fun-asr-realtime")
        .format("wav")
        .sampleRate(16000)
        .input(input)
        .build();

Recognition recognizer = new Recognition();
System.out.println(recognizer.call(param, new File("audio.wav")));
recognizer.getDuplexApi().close(1000, "bye");

效果示例

上下文的 text 字段内容格式灵活，可以是词表、自然语言段落或两者的混合，对无关文本的容错性极高。

某段音频正确识别结果应该为“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB ...”。

不使用上下文增强

未使用上下文增强时，部分投行公司名称识别有误，例如 “Bird Rock” 正确应为 “Bulge Bracket”。

识别结果：“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bird Rock，BB ...”

使用上下文增强

使用上下文增强，对投行公司名称识别正确。

识别结果：“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB ...”

上述示例中，在上下文的 text 字段中加入包含“Bulge Bracket”等专业术语的词表或自然语言段落即可实现增强效果。

API参考

定制热词 API 参考
录音文件识别 HTTP API 参考（非实时语音识别上下文增强）
实时语音识别客户端事件（实时语音识别上下文增强 WebSocket 协议）
实时语音识别 Python SDK
实时语音识别 Java SDK

常见问题

Q：设置热词后识别效果没有改善？

依次排查：

模型是否匹配：创建时指定的 target_model 必须与语音识别接口使用的模型一致。两者不一致时接口不会报错，识别仍能返回结果，但热词不生效；识别结果未命中预期热词时应优先排查此项。
模型是否支持：模型必须为 Fun-ASR 或 Paraformer 系列，其他系列不支持热词。在不支持的系列上调用时接口同样不会报错，但识别结果可能为空或不含热词增强；使用 SenseVoice 等系列时应优先排查此项。
权重是否合适：将权重从 4 提到 5 观察效果。如果出现发音相近的其他词被误识别为热词，回调到 4。
热词列表状态：通过查询接口确认 status 为 OK。

Q：热词在实时和非实时语音识别中的使用方式是否相同？

创建方式相同，调用时存在差异：

实时语音识别：在 Recognition 或 WebSocket 连接参数中传入 vocabulary_id。
录音文件识别：在 Transcription 请求参数中传入 vocabulary_id。

两种场景的 target_model 都必须与实际调用的语音识别模型一致。

Q：除了热词和上下文增强，还有哪些方式可以提升识别准确率？

还可从以下方向优化：

音频质量：采样率匹配模型要求（16 kHz 或 8 kHz），降低背景噪声。
选择合适的模型：不同场景适用模型不同，详见语音识别选型指南。
指定语种：通过 language_hints 声明音频语种，可提升单语种场景的准确率。