首页 > 智能影音频道 > 新闻 > 行业 > 正文

斯坦福研究:语音输入比打字快三倍 准确率更高

.2016-08-26 .作者:机器之心 .编辑:
导语:

智能手机语音识别软件的口碑并不好。大多数用户发现该新兴技术运行非常慢,而且有无数博客在记录着其最大的、有时及其滑稽的错误。

但是一项新实验的结果反映了不同的现实:相比于人类在手机屏幕上打字,语音识别能更快的、更准确的组织文本消息。

「语音识别技术已被我们谈论了几十年,但是它从来没能很好地运行,」斯坦福计算机科学的教授兼这项新研究的合著者James Landay说。「但是我们注意到,在过去的两年至三年里,语音识别实际上进步了很多,这得益于大数据和深度学习的发展,我们能够训练其神经网络从而获得更快、更准确的结果。所以我们决定正式测试这项技术,与人类做比较。」

该研究团队,包含来自斯坦福、百度以及华盛顿大学的计算机科学家,设计了一个让百度深度语音2(基于云的语音识别软件)与32名打字者比赛的实验,这些打字者的年龄从19岁到32岁,使用苹果iPhone的内置键盘。

「他们是打着字长大的,我们选择这些真正擅长该任务的人与语音识别对抗,」Landay说。

比赛项目是依次打出或说出用于基于文本研究的斯坦福每日短语库中的大约100个短语,例如「物理和化学很难,」「周末愉快」以及「出去吃点披萨,喝点啤酒」。同时,测试应用会记录他们花的时间和准确率。该项目一半是使用QWERTY键盘的英语任务;另一半是使用iOS的拼音键盘打出作为母语的普通话。

无论是什么语言,结果都很清楚。对于英语,语音识别比打字快三倍,错误率低20.4%。对于中文普通话,语音快2.8倍,错误率比打字低63.4%。

「我们知道语音识别非常棒,所以我们预期它会更快,但我们实际上也有点吃惊它几乎比键盘打字快三倍,」帮助组织实验的斯坦福计算机科学的PhD兼实验合著者Sherry Ruan说。

虽然研究者们使用百度的语音识别软件,但他们猜想其他高精确度的语音引擎也能表现出类似的水平。既然团队成员已经确定了语音识别实际上能运行得很好,他们希望这会鼓励工程师们更好地利用该技术,设计出新的用户交互界面。

「我们应该将语音融入更多类型的应用中,不仅仅是写电子邮件或文本信息,」Landay说,「你想象如果有一个交互界面,你可以用语音启动它,然后它就切换成了一个可以用手指触控的图形交互界面。」

这项名为「不论是英语还是普通话,在移动设备上语音输入比打字快3倍」的研究被发布在arxiv.org上。合著者包括华盛顿大学的Jacob Wobbrock、Kenny Liou以及百度的吴恩达;吴恩达也是斯坦福计算机科学的副教授。

对于笔记本电脑和桌面电脑,最主要的文本输入方式是全尺寸键盘;现在对于无处不在的移动设备,如智能手机来说,两种新式的方法出现了:微型触摸屏幕键盘和语音输入。 目前并不清楚这两种现代的输入方式的比较情况。因此我们在一台智能手机上,用英语和中文普通话测试了这两种方法的文本输入表现。语音输入的情况下,我们的语音识别系统会给出一个首字母,然后可以通过再次说话或者智能手机键盘来修正识别错误。我们发现使用语音识别,英语的输入速度比最新的微型智能手机键盘快3倍,中文普通话的输入速度快2.8倍。再者,比起键盘,使用语音的英语错误率要低20.4%,普通话的错误率要低63.4%。我们的实验使用深度语音2,一个基于深度学习的语音识别系统,以及使用苹果iOS内置Qwerty或拼音键盘。这些结果显示了从打字到语音的显著提升可能即将来临,并带来深远影响。照此结果,更多的开发高效语音交互界面的研究有了保证。

图片来源于网络,如果有侵权请与我们联系,我们会尽快删除。