程序员文章、书籍推荐和程序员创业信息与资源分享平台

网站首页 > 技术文章 正文

Python学不会来打我(100)python将语音识别为文字

hfteth 2025-07-06 12:16:35 技术文章 2 ℃

前几篇文章我们分享了python识别文字,python去除水印,后台有很多小伙伴问我有没有python识别语音,以下是Python实现声音转文字的3种主流方案及代码示例,综合开源工具与商业API的解决方案:#python##python自学##python教程#

一、开源方案(Whisper模型)

Open AI开源的Whisper模型支持高精度多语言转录,需提前安装FFmpeg和PyTorch

import whisper
model = whisper.load_model("base") # 可选base/small/medium/large
result = model.transcribe("audio.mp3", language="zh")
print(result["text"])

二、商业API方案(百度语音识别)

需注册百度云账号获取API Key

from aip import AipSpeech
APP_ID = '你的AppID'
API_KEY = '你的API Key'
SECRET_KEY = '你的Secret Key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
with open('audio.wav', 'rb') as f:
     res = client.asr(f.read(), 'wav', 16000, {'dev_pid': 1537}) # 1537为中文普通话
print(res['result'][0])

三、轻量级方案(SpeechRecognition库)

适合短音频快速转换,依赖Google Web API

import speech_recognition as sr
r = sr.Recognizer()
with sr.AudioFile("audio.wav") as source:
     audio = r.record(source)
text = r.recognize_google(audio, language="zh-CN")
print(text)

方案对比与选型建议

Tags:

最近发表
标签列表