找回密码
 会员注册
查看: 24|回复: 0

OpenAIWhisper+FFmpeg+TTS:动态实现跨语言视频音频翻译

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64122
发表于 2024-10-11 21:11:58 | 显示全部楼层 |阅读模式
本文作者系360奇舞团前端开发工程师摘要:本文介绍了如何结合 OpenAI Whisper、FFmpeg 和 TTS(Text-to-Speech)技术,以实现将视频翻译为其他语言并更换声音的过程。我们将探讨如何使用 OpenAI Whisper 进行语音识别和翻译,然后使用 FFmpeg 提取视频音轨和处理视频,最后使用 TTS 技术生成新的语音并替换原视频的音轨。通过这种方式,我们可以为视频添加新的语言版本,同时保持其原始视觉内容。引言:现如今,全球范围内的视频内容正在迅速增长,跨语言传播和多语言支持成为了一个重要的需求。但是,手动为视频添加不同语言的字幕或配音可能非常耗时且昂贵。本文将介绍一种利用 OpenAI Whisper、FFmpeg 和 TTS 技术的方法,使我们能够将视频翻译为其他语言并更换声音,以满足多语言需求,同时降低成本和时间。OpenAI Whisper:是一种强大的语音识别模型,能够将语音转换为文本,并支持多种语言。我们将使用 Whisper 将视频中的原始语音提取为文本,并通过翻译服务将其转换为目标语言的文本。FFmpeg:处理视频和音轨提取接下来,我们使用 FFmpeg 工具处理视频和提取音轨。FFmpeg 是一款功能强大的多媒体处理工具,它支持各种音视频处理操作。我们可以使用 FFmpeg 提取原视频的音轨,以便稍后替换为新生成的语音。TTS 技术:生成新的语音为了替换原视频的音轨,我们需要生成新的语音。这里我们使用 TTS(Text-to-Speech)技术,将先前翻译得到的目标语言文本转换为对应语言的语音。TTS 技术基于深度学习模型,可以生成自然流畅的语音,使其与原视频的内容相匹配。结合 Whisper、FFmpeg 和 TTS:实现视频翻译和更换声音最后,我们将 Whisper 生成的目标语言文本与 TTS 生成的新语音结合起来,并使用 FFmpeg 将新语音替换到原视频的音轨中。通过使用 FFmpeg 的音轨替换功能,我们可以确保新语音与视频内容同步,并生成具备目标。结果展示原视频:https://caining0.github.io/statichtml.github.io/test.mp4转换后视频:https://caining0.github.io/statichtml.github.io/output.mp4前提与依赖pip3installopenai-whisperpip3installffmpeg-pythonbrewinstallffmpegpip3installTTS//https://github.com/coqui-ai/TTSopenai-whisper用法命令行用法以下命令将使用medium模型转录音频文件中的语音:whisperaudio.flacaudio.mp3audio.wav--modelmedium默认设置(选择模型small)适用于转录英语。要转录包含非英语语音的音频文件,您可以使用以下选项指定语言--language:whisperjapanese.wav--languageJapanese添加--task translate会将语音翻译成英文:whisperjapanese.wav--languageJapanese--tasktranslate运行以下命令以查看所有可用选项:whisper--helpPython 用法importwhispermodel=whisper.load_model("base")result=model.transcribe("audio.mp3")print(result["text"])例子whispertest.mp4--languageChinese--tasktranslate[00:00.000-->00:03.400]IftheChinesepeoplecometodesignanewbuilding,itwillbelikethis[00:03.400-->00:06.360]AnewbuildingthathasbeenrebuiltbyaChinesecity[00:06.360-->00:09.480]Thisisarealcity,maybeit'syourhometown[00:09.480-->00:12.640]Let'stakeashortfilmwithusandshowitsrealface[00:12.640-->00:14.480]Theopeningisaone-minutelonglens[00:14.480-->00:16.520]First,thetimehaschanged,thenewseasonhasnoshadow[00:16.520-->00:18.680]Asenseofdepressionisborn[00:18.680-->00:20.400]Werandomlysawtheredtailofit[00:20.400-->00:22.120]Thisisthenewbuildinginthehundredsofsquarekilometers[00:22.120-->00:24.480]Theblueprotectivetentinsidetheblueskycityinthefront[00:24.480-->00:26.080]Asinthefrontofthecrystalball[00:26.080-->00:28.360]Thebackisalargerenvironmentalstructure[00:28.360-->00:29.800]Thisistheshadowofthenewbuilding[00:29.800-->00:30.600]Thelensisfaraway[00:30.600-->00:32.040]Weseethatthereisabandage[00:32.040-->00:33.560]Itispassingthroughahugestar[00:33.560-->00:35.240]Thosearethestarsofthestars[00:35.240-->00:37.280]Thestarsdonotaffecttheshapeofthebandage[00:37.280-->00:39.240]Thismeansthattheirmotivationissuper[00:39.240-->00:42.040]Atthistime,thelensenterstheblueprotectivetentinsidethefirstcrystalballTTSfromTTS.apiimportTTSmodel_name=TTS.list_models()[0]tts=TTS(model_name)tts.tts_to_file(text="Helloworld!",speaker=tts.speakers[0],language=tts.languages[0],file_path="output.wav")#实践中需要把text更换为whisper提取内容ffmpeg提取无音频视频ffmpeg-i/Users/cnn/Downloads/test.mp4-an-youtput_new.mp4去噪ffmpeg-y-ioutput_new.wav-af"anlmdn=ns=20"output_clean.wav合并与剪切ffmpeg-imerge1.wav-ia_p1.wav-filter_complex"[0:0][1:0]concat=n=2:v=0:a=1[a]"-map[a]-ymerge0.wav其他问题,由于tts生成语音,实际时长与原视频时长不一样,需要动态调整#思路为,获取视频时长和原视频时间的比例,并设置,调整语速ffmpeg-y-ioutput.wav-filter:a"atempo=0.8"output_new.wav前景结合 OpenAI Whisper、FFmpeg 和 TTS 技术的跨语言视频翻译与语音本地化应用具有广阔的前景与市场潜力。随着全球化的推进,多语言视频内容需求日益增加,教育、媒体、娱乐和商务等领域都需要提供多语言支持。这种应用可以帮助内容创作者快速将视频本地化,满足全球受众的需求,同时降低成本和时间投入。在教育领域,多语言支持可以促进全球学习交流与合作;媒体和娱乐行业可以通过本地化的视频内容吸引更广泛的受众市场。此外,企业在跨国业务和跨文化交流中也可以利用这种应用进行语音本地化,促进全球团队合作和商务沟通。未来,这种应用有望成为视频内容创作工具与服务的一部分,提供高效、自动化的跨语言翻译和语音本地化功能。总之,这种应用在满足多语言视频需求的同时,为各个行业带来商业机会,并推动全球化交流与合作的发展。不足TTS略有杂音,后续优化,或者考虑收费版本,如Polly:https://aws.amazon.com/cn/polly/,引用https://github.com/openai/whisperhttps://github.com/coqui-ai/TTShttps://ffmpeg.org/-END-关于奇舞团奇舞团是 360 集团最大的大前端团队,代表集团参与 W3C 和 ECMA 会员(TC39)工作。奇舞团非常重视人才培养,有工程师、讲师、翻译官、业务接口人、团队 Leader 等多种发展方向供员工选择,并辅以提供相应的技术力、专业力、通用力、领导力等培训课程。奇舞团以开放和求贤的心态欢迎各种优秀人才关注和加入奇舞团。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-26 13:05 , Processed in 0.438457 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表