有没有人对任何开源的或相对便宜的java的语音识别API有经验?我想找一个能把说话变成文字的东西。

从sun上的java语音识别页面来看,这似乎是一个比较死的东西。我的要求是至少能在linux上运行的东西。

谁能推荐一些东西?纯粹的java将是一个奖励,否则可以考虑基于linux的解决方案。由于这是一个家庭项目...越便宜越好。

CMU Sphinx 正如Amit所指出的,CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 我的问题是大量的单词错误率。训练似乎本身就是一个项目,我希望能在这个周末聚集一些力量来尝试。

IBM ViaVoice
2004年有一些新闻公告在流传,关于 通过语音正在开放源代码 .看来新闻发布的时机还不成熟,它从未发生过。威盛之声是 为Linux发布 在某些时候,他们似乎停止了。在IBM的网站上似乎只剩下了 嵌入ViaVoice .

IBM Websphere Voice
我想这就是为什么ViaVoice(桌面)似乎已经停产了。IBM创造了这个商业解决方案,它的成本将超过一条胳膊和一条腿。至少在我使用websphere和他们的IDE的经验之后,仅仅使用它就会把你剩下的那些东西都拿走。

看起来他们仍然可能为Linux创造产品。但我认为他们迷失了方向,跟随IBM进入了服务器市场。我不太确定这一点,他们的网站在寻找有用的信息方面不是那么友好。

Open Mind / Free Speech
这些人一直在改变他们的项目名称。可能是一些渴望金钱的公司不断威胁他们,但我不知道。这个项目看起来有点死了。

这个周末我可能会尝试训练斯芬克斯,看看它是否愿意成为朋友。如果是更糟的情况,我将会考虑使用微软的语音解决方案。它在过去对我很有效,但它不是一个好的Linux解决方案。我也许可以通过wine使用它,但那样我就有两个独立的服务器......乱七八糟的。

哦,什么地方似乎是一个很好的语音/语音访问的地方 语音技术杂志 .他们有一个 "年度参考",其中有一个与语音/话语有关的公司名单。

java
linux
speech-recognition
guyumu
guyumu
发布于 2009-03-04
5 个回答
user59634
发布于 2010-01-07
已采纳
0 人赞同
在使用它之后,它实际上是相当可怕的。几乎不能识别任何东西,而且我也没有可怕的口音或任何东西。训练似乎更是一个问题,除非你愿意掏钱购买一些第三方数据库,否则你就只能坐在最底层。
我还没有任何实际经验。
这个问题已经很老了,但我想知道Sphinx目前的表现。我使用Sphinx 4和适应WSJ模型,它给我86%的准确率。
si28719e
si28719e
发布于 2010-01-07
0 人赞同

如果你的预算有限,斯芬克斯是迄今为止最好的选择。 然而,它也使一个 huge 你使用什么模型,你如何调整它们,这些都是不同的。 how you tune your audio source. absolutely everything has to match otherwise it just wont work. given the problem you described id be willing to bet a substantial sum that you've got you got your models mixed up 和 your mic is not correctly calibrated. also, if you have an accent it probably will not work - this is not an issue with the decoder but with the acoustic models - if no one with a voice/accent similar to yours was included in the training data you'll get poor results.

话虽如此,你是否看过他们的开放源代码模型页面?

http://www.speech.cs.cmu.edu/sphinx/models/

depending on what you are trying to do you should be able to obtain about 90% accuracy on free speech with the 16kHz WSJ models 和 the gigaword LMs NVP. i caution however that ASR is a massive undertaking 和 hasn't yet reached commodity status.

我想我已经意识到了这一点,它仍然有很长的路要走。我是否有口音是主观的:D,但很可能。我最近不再使用ubuntu,而是跳上了windows的行列。当我继续这样做的时候,我想我将有能力使用微软的引擎,这在过去是很合理的。但最终...我认为技术还有很长的路要走,我想我将在10年内完全放弃这部分:)
微软的引擎曾经也是基于斯芬克斯的。现在我想他们也许更多的是依靠HTK,另一个开源的语音识别系统。从ASR系统的角度来看,你的口音不是一个主观的问题。结果将在很大程度上取决于你的声音特征与训练数据中的声音的匹配程度。
Andreas
Andreas
发布于 2010-01-07
0 人赞同

你可以从以下网站下载vPass(语音密码)。 http://www.basic-signalprocessing.com .