现在有什么开源的语音识别吗?

离线的语音识别
关注者
224
被浏览
602,889

26 个回答

开源且离线可用的,那当然是现在最火的OpenAI家的whisper啊,在安装后下载模型文件后就可以直接离线使用,即可以用whisper命令行调用,也可以使用Python调用。这个开源离线可用的东西,有国外已经部署在树莓派上,实现了离线的智能家具语音识别控制。

安装

使用以下指令:

pip install -U openai-whisper

或者使用以下指令从源码安装最新版

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

另外需要安装ffmpeg,不同系统参考不同方式

# on Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg
# on Arch Linux
sudo pacman -S ffmpeg
# on MacOS using Homebrew (https://brew.sh/)
brew install ffmpeg
# on Windows using Chocolatey (https://chocolatey.org/)
choco install ffmpeg
# on Windows using Scoop (https://scoop.sh/)
scoop install ffmpeg

模型说明

有五种模型大小可供选择,其中除了large模型外还提供了只支持英文的版本。 模型越小占用显存越少,速度也更快,但精度也更低 ,所以在使用时需要自己在速度和准确度之间权衡。以下是可用模型的名称、近似内存需求和相对速度。

Size Parameters English-only model Multilingual model Required VRAM Relative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

英语模型中的 .en 模型(仅适用于英语应用程序)往往表现更好,特别是对于 tiny.en base.en 模型。

Whisper的表现在不同语言下会有很大差异。下图展示了使用large-v2模型对Fleurs数据集进行的WER(词误率)语言拆解。数值越小,表示表现越好。

简单的说,目前 whisper最擅长的6种语言是西班牙语、意大利语、英语、葡萄牙语、德语和日语 。中文的WER达到14.7,处于中等水平,所以表现不是那么好,但可用,后面会测试。

用法

直接使用whisper指令识别音频和视频文件为文本,如:

whisper video.mp4

这里需要重点说明的是,默认会生成5个文件,文件名和你的源文件一样,但扩展名分别是:.json、.srt、.tsv、.txt、.vtt。 除了普通文本,也可以直接生成电影字幕 ,还可以调json格式做开发处理。

前面介绍了whisper有多种模型,默认使用的是small模型,占用显存少,识别速度快,但准确率没大模型高,以下 --model medium 命令将使用 medium模型 转录音频文件中的语音:

whisper audio.flac audio.mp3 audio.wav --model medium

默认设置(选用小型模型)在转录英语时表现良好。如果要转录包含非英语言的音频文件,则可以使用 --language 选项指定语言,当然也 可以不指定语言,模型可以做到自动识别

whisper japanese.wav --language Japanese

添加 --task translate 选项将把语音翻译成英语,这在需要为非英文电影生成英文字幕的场景非常方便:

whisper chinese.mp4 --language Chinese --task translate

运行以下命令查看所有可用选项:

whisper --help
除了使用whisper指令,也可以使用 python 开发使用,这很方便,但这里不多做介绍,以下是Python示例:
import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

使用体验

安装whisper后,可以根据以上说明直接命令行执行,会自动下载指定的模型:

这里我是转换一个视频,会自动生成字幕格式的,使用非常方便:

除了直接识别语音生成文字和视频字幕,还可以直接转换中文为英文:

直接把中文视频生成英文字幕:

补充:模型只自带了所有语言转英文的能力,那如果需要把英文翻译成中文怎么办?可以利用chatGPT实现,最简单的思路:1. 直接用whisper生成英文字幕,2. 把字幕文件发给chatGPT让它翻译,注意保持格式不变。这样就可以生成你需要的其它语言的字幕了,而且因为whisper识别英文能力很强,翻译出来的质量还很高。

总之,超级方便,虽然识别有一些不准确,但已解决了90%的工作量。

WEBVTT
00:00.000 --> 00:03.600
大家好,首先很高興大家來到這堂課
00:03.600 --> 00:10.200
這堂課的主要內容是希望讓各位可以在這堂課結束的時候不只快速的掌握ChatGPT
00:10.200 --> 00:14.200
也能對如何使用AI提升自己在工作上的生產力
00:14.200 --> 00:19.200
有初步的了解,讓您可以在短時間內從初學者蛻變為大師
00:19.900 --> 00:22.200
那麼本次課程的大綱如下
00:22.200 --> 00:25.400
一開始我們會先介紹ChatGPT是什麼
00:25.400 --> 00:28.000
接著講述ChatGPT的基本操作
00:28.800 --> 00:32.600
在使用的部分會告訴各位ChatGPT的Chrome插件
00:32.600 --> 00:37.000
外掛程式以及如何繞過ChatGPT限制問出想要的答案
00:37.000 --> 00:41.000
並且如何正確使用提示詞,以問出對的問題
00:41.800 --> 00:45.400
更會進一步介紹ChatGPT在工作上的應用
00:45.400 --> 00:47.800
以及教各位如何避開檢測
00:47.800 --> 00:52.000
接著和各位分享使用ChatGPT獲利的一些常見方法