程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

【Python语音识别系列】音频文件采样率转换的两种方法实现

hfteth 2025-07-27 20:07:35 技术文章 6 ℃

这是我的第410篇原创文章。

一、引言

如果你的音频文件采样率是48kHz,而很多语音模型比如
speech_fsmn_vad_zh-cn-16k-common-pytorch模型仅支持16kHz采样率的音频,那么你需要在将音频输入模型之前,将音频文件的采样率从48kHz转换为16kHz。

以下是一个使用Python进行采样率转换的简单方法。

二、实现过程

2.1 使用scipy库进行采样率转换

代码:

import numpy as np
from scipy.io import wavfile
from scipy.signal import resample

# 读取48kHz的音频文件
input_file = '录音.wav'
output_file = '录音-16k.wav'
sample_rate_48k, data = wavfile.read(input_file)

# 确保音频是单声道
if data.ndim > 1:
    data = data[:, 0]

# 计算重采样后的样本数量
num_samples_16k = int(len(data) * 16000 / sample_rate_48k)

# 使用scipy的resample函数进行重采样
data_16k = resample(data, num_samples_16k)

# 保存为16kHz的音频文件
wavfile.write(output_file, 16000, data_16k.astype(np.int16))

结果:

2.2 使用pydub库进行采样率转换

代码:

from pydub import AudioSegment

# 加载48kHz的音频文件
audio = AudioSegment.from_wav('录音.wav')

# 转换采样率为16kHz
audio_16k = audio.set_frame_rate(16000)

# 导出转换后的音频文件
audio_16k.export('录音-16k-2.wav', format='wav')

结果:

转换完成后,你就可以将16kHz的音频文件输入到speech_fsmn_vad_zh-cn-16k-common-pytorch模型中进行处理。

作者简介: 读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。关注gzh:数据杂坛,获取数据和源码学习更多内容。

Tags:

最近发表
标签列表