最佳实践_大模型服务平台百炼-阿里云帮助中心

Paraformer语音识别

了解如何通过从视频文件中提取音轨、并进行合理的压缩以显著降低文件尺寸，从而减少API调用过程中的文件传输耗时、加快文件转写吞吐效率，请查阅：预处理视频文件以提高文件转写效率。
通过OSS可以提高文件转写的效率和稳定性，请查阅：通过OSS提高文件转写效率和稳定性。

虽然Paraformer语音识别API可以兼容视频文件，但由于视频文件尺寸通常较大、传输较为耗时，建议对其进行预处理，仅提取需要进行语音识别的音轨，并进行合理压缩，从而显著降低文件尺寸。这样做将大大加快视频文件转写的吞吐效率。在以下最佳实践中，展示了如何使用ffmpeg进行有关的预处理。

使用ffmpeg提取视频文件中的第一条音轨、降采样到16kHz、并压缩编码为opus文件。

Shell

ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus

一般情况下，输出的音频文件将显著小于输入的视频文件的尺寸，接下去可向文件转写API提交该音频文件（以URL指定），获得语音识别结果。

推荐使用与Paraformer语音识别API同地域的阿里云对象存储OSS进行音视频文件存储。OSS可以便捷的为文件生成URL，从而被指定为API的输入。对位于同地域OSS中的文件进行转写有助于提高转写效率和稳定性。

说明

Paraformer语音识别文件转写API当前部署的地域有：华北2（北京，cn-beijing）。

重要

对同地域的OSS文件进行语音识别文件转写时，应指定OSS bucket的内网域名下的URL作为文件名。这将避免产生不必要的OSS网络流量费用。

了解对象存储OSS的更多信息，请前往：OSS产品主页。