网站首页 > 技术文章 正文
这是我的第410篇原创文章。
一、引言
如果你的音频文件采样率是48kHz,而很多语音模型比如
speech_fsmn_vad_zh-cn-16k-common-pytorch模型仅支持16kHz采样率的音频,那么你需要在将音频输入模型之前,将音频文件的采样率从48kHz转换为16kHz。
以下是一个使用Python进行采样率转换的简单方法。
二、实现过程
2.1 使用scipy库进行采样率转换
代码:
import numpy as np
from scipy.io import wavfile
from scipy.signal import resample
# 读取48kHz的音频文件
input_file = '录音.wav'
output_file = '录音-16k.wav'
sample_rate_48k, data = wavfile.read(input_file)
# 确保音频是单声道
if data.ndim > 1:
data = data[:, 0]
# 计算重采样后的样本数量
num_samples_16k = int(len(data) * 16000 / sample_rate_48k)
# 使用scipy的resample函数进行重采样
data_16k = resample(data, num_samples_16k)
# 保存为16kHz的音频文件
wavfile.write(output_file, 16000, data_16k.astype(np.int16))
结果:
2.2 使用pydub库进行采样率转换
代码:
from pydub import AudioSegment
# 加载48kHz的音频文件
audio = AudioSegment.from_wav('录音.wav')
# 转换采样率为16kHz
audio_16k = audio.set_frame_rate(16000)
# 导出转换后的音频文件
audio_16k.export('录音-16k-2.wav', format='wav')
结果:
转换完成后,你就可以将16kHz的音频文件输入到speech_fsmn_vad_zh-cn-16k-common-pytorch模型中进行处理。
作者简介: 读研期间发表6篇SCI数据算法相关论文,目前在某研究院从事数据算法相关研究工作,结合自身科研实践经历持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。关注gzh:数据杂坛,获取数据和源码学习更多内容。
猜你喜欢
- 2025-07-27 Python一键打包工具的提示词,喜欢的朋友赶快去做一个试试看!
- 290℃Python短文,Python中的嵌套条件语句(六)
- 286℃PythonNet:实现Python与.Net代码相互调用!
- 283℃python笔记:for循环嵌套。end=""的作用,图形打印
- 283℃Python实现字符串小写转大写并写入文件
- 280℃Python操作Sqlserver数据库(多库同时异步执行:增删改查)
- 140℃原来2025是完美的平方年,一起探索六种平方的算吧
- 124℃Ollama v0.4.5-v0.4.7 更新集合:Ollama Python 库改进、新模型支持
- 115℃Python 和 JavaScript 终于联姻了!PythonMonkey 要火?
- 最近发表
- 标签列表
-
- python中类 (31)
- python 迭代 (34)
- python 小写 (35)
- python怎么输出 (33)
- python 日志 (35)
- python语音 (31)
- python 工程师 (34)
- python3 安装 (31)
- python音乐 (31)
- 安卓 python (32)
- python 小游戏 (32)
- python 安卓 (31)
- python聚类 (34)
- python向量 (31)
- python大全 (31)
- python次方 (33)
- python桌面 (32)
- python总结 (34)
- python浏览器 (32)
- python 请求 (32)
- python 前端 (32)
- python验证码 (33)
- python 题目 (32)
- python 文件写 (33)
- python中的用法 (32)