找回密码
 会员注册
查看: 17|回复: 0

python常用代码块python多种方式实现语音转文字

[复制链接]

2万

主题

0

回帖

7万

积分

超级版主

积分
72155
发表于 2024-9-7 19:35:04 | 显示全部楼层 |阅读模式
python多种方式实现语音转文字1.mp3转wav一些工具只能处理wav文件,可以通过剪映直接输出转换,也可以使用如下代码实现需要安装pydub库:pipinstallpydubfrompydubimportAudioSegmentfp=r'D:\python\pyapp\001\aa.MP3'#输入自己的文件地址output=AudioSegment.from_mp3(fp).set_channels(1)#1为单声道2为多声道output.export(r'D:\python\pyapp\001\bb.wav',format='wav')12342.OpenAIwhisper各模型下载地址"tiny.en":"https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt","tiny":"https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt","base.en":"https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt","base":"https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt","small.en":"https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt","small":"https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt","medium.en":"https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt","medium":"https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt","large-v1":"https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt","large-v2":"https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt","large":"https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",1234567891011需要安装whisper:pipinstallwhisper使用代码比较简单,效果也算可以,至少是可以识别出文字出来importwhisper#模型可选用上面下载地址中左侧的名称tiny.en、large-v1、large等model=whisper.load_model('base')fp=r'D:\python\pyapp\001\audio\01\music.wav'result=model.transcribe(fp)print(result["text"])1234567音频是首歌曲,识别结果如下,感觉基本发音相似,错别字多了些:3.Vosk需安装vosk库:pipinstallvoskvosk的模型库可以在如下地址下载,下载后直接解压即可,代码中加载模型时可以直接填写模型文件夹所在地址https://alphacephei.com/vosk/modelsimportsys,json,wavefromvoskimportModel,KaldiRecognizer,SetLogLevelSetLogLevel(-1)#加载模型地址model=Model(r'D:\python\pyapp\001\audio\vosk-model-small-cn-0.22')fp=r'D:\python\pyapp\001\audio\01\word.wav'wf=wave.open(fp,'rb')print('getframerate',wf.getframerate())print('getnframes',wf.getnframes())rec=KaldiRecognizer(model,wf.getframerate())rec.SetWords(True)str_ret=''whileTrue:data=wf.readframes(4000)if(len(data)==0):breakifrec.AcceptWaveform(data):result=rec.Result()result=json.loads(result)print(result)if'text'inresult:str_ret+=result['text']+''print(result['text'])print('----')print(str_ret)123456789101112131415161718192021222324252627282930音频文字:小时候真傻,居然还在盼着长大源码:https://download.csdn.net/download/mjc1321/89117611接接爬虫小活199/单,有趣的减半,无聊多金的可以留言加V私聊(晚8点后添加),能完成看效果后再付钱,完不成就是能力有限随意喷
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-11 02:30 , Processed in 1.227854 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表