LOADING

AI神器whisper,用AI生成字幕

AI神器whisper,用AI生成字幕

升级显卡后才发现玩游戏的时间真的很少,但这几年AI工具真的很强大也很有趣,于是显卡有了新玩法。

我将介绍一些非常强大的AI工具,比如AI画图、AI补帧、AI图像放大、AI视频修复,如果想了解更多玩法可以关注我。今天介绍的AI生成字幕,使用的AI工具是著名的whisper,这是一个开源的AI工具,可以识别音频和视频生成字幕文件。

其英语识别的准确,我只能说非常惊艳,当然whisper还支持多种其它语言语音识别成文字。

AI神器whisper,用AI生成字幕

安装whisper之前需要安装python3.10和pip以及ffmpeg。如果网络不能顺畅访问github,可以试试使用开发者边车dev-sidecar。

做完准备工作,开始安装whisper,打开powershell用官方的一键安装脚本安装:

#安装 pip install setuptools-rust pip install git+https://github.com/openai/whisper.git #升级 pip install –upgrade –no-deps –force-reinstall git+https://github.com/openai/whisper.git

AI神器whisper,用AI生成字幕

只要网络正常安装是很快捷简单的。但官方的一键安装命令安装完后可能会有一个问题,就是不能正常调用CUDA,而是使用CPU运行计算(这会拖慢运行速度)。这种情况需要重新安装torch(安装需要下载2G左右的数据)

pip uninstall torch pip cache purge pip install torch -f https://download.pytorch.org/whl/torch_stable.html

重新安装之后应该就可以正常调用显卡的CUDA了(既然都说到CUDA了,自然是需要N卡)。

首次使用whisper还需要下载用于识别的模型文件。官方提供了5个模型文件,默认使用small,如果显卡性能较好可以尝试一下medium和large准确率更高,但是速度会更慢。

如果是让程序自己下载这几个模型文件会很慢(medium包有1.4G、large包有3G)。我建议是去whisper的_int_.py文件源码里找到这几个文件下载地址,然后用下载软件下载到本地。

然后放到C:\Users\用户名\.cache\whisper路径中。

万事俱备,接下来介绍一下如何转换。

首先打开需要转换文件的文件夹,在该目录下打开powershell(shift+右键)。假设需要转换字幕的文件是japanese.wav,语言是Japanese。那么可以通过如下命令转换,可以通过–model参数指定加载的识别模型。

#指定语言生成字幕 whisper japanese.wav –language Japanese #指定模型 whisper japanese.wav –language Japanese –model medium #生成字幕并翻译成英文 whisper japanese.wav –language Japanese –task translate

如果需要翻译,还可以加上–task translate参数,但是默认只能翻译成英文。

我用电影《罪恶之城》做了一个测试,翻译速度很快,大概十几分钟就完成了整部电影字幕的生成,而且英文的准确率没得说。

AI神器whisper,用AI生成字幕

显卡占用情况2060Super没吃满,大概占用在70%左右。所以对于硬件性能要求并不是非常高,但是比较吃显存。

生成的字幕还用翻译软件进行翻译成中文,就可以得到你想要的中文字幕了。

目前来说whisper生成英文字幕可以说是非常强大、非常惊艳,其它语言也基本达到可用的水平。whisper可以说是一个非常好用的AI工具,值得一试!

© 版权声明