
微软研究院于今年10月公布了一份语音识别研究报告,宣布目前微软研发的语音识别技术误差率下降到了5.9%,这个水平与人类对话的识别率已经基本持平;而在语音转文字方面,转录正确率甚至还高于人工水平。
这个微软自己称之为“具有里程碑式”的语音识别系统不仅仅能够识别简单的人类语音输入,而且还能准确地转录对话。“这是目前行业内测量过的交换机语音识别任务的出现的最小误差率 ,”微软报告中说道。从实验报告中我们看到,这一转录精度和完整性已经达到了人类专业记录员的水平。
微软这项语音识别技术是利用此前已经在GitHub上开源的本地化深度学习工具CNTK实现的。CNTK与其他开源软件最大的区别在于它能够实现大规模的分布式深度学习,因此在性能上也更优化。而最新的这一语音识别成果通过神经网络和机器学习技术的融合,才达到这一前所未有的低误差率。这一系统的成功在于他们采用的最新的神经网络技术,他们采用了一种神经语言模型,该模型在空间中被表现为连续的向量,计算机能通过该模型识别具有紧密联系的近义词。“这让模型能充分概念化每一个词汇。
黄学东是微软的首席语音科学家。他表示CNTK这种特点使得它能够在64台机器上运行。微软今天能够刷新语音识别记录,CNTK这一开源工具功不可没。“CNTK是我们的‘秘密武器’。我们把秘密武器开源了,但是里面装什么样的子弹、弹药,你自己决定。”
微软其他产品上搭载的与语音识别技术,包括Cortana、Bing、HoloLens AI等训练都是在CNTK这一工具上实现的,未来,这个识别误差更低的技术很有可能将会使用在Xbox、Skype以及Windows系统上,实现语音识别的跨平台应用。

更值得注意的是,在上个月的行业标准Switchboard语音识别任务测试中,微软的这一系统误差率还在6.3%,而仅仅一个月的时间就下降到了5.9%,如果按照这种速度计算,计算机的语音识别能力超越人类已经是指日可待的事情。负责微软人工智能与研究部门的微软全球执行副总裁沈向洋博士也笑言,“要是在五年前,我是绝对不敢相信我们可以实现这个目标的。”
语音识别技术的开发和研究可以追溯到上个世纪70年代,最开始的一个项目是由DARPA(Defense Advanced Research Projects Agency,美国国防部先进研究项目局,主要致力于美国国防高新技术的研究、开发和应用)资助的,而在接下来的几十年里也有越来越多额研究机构和企业巨头涉足。语音识别技术的突破,是多年来技术积累的结果。
虽然项目进展的速度很快,然而微软并不满足于此。他们计划接下来要确保语音识别技术能在类似人声喧哗的聚会或者背景音乐嘈杂的高速公路上开车,以及其他一些复杂的环境中也能准确判别声音,同时实现多人谈话的准确输入和识别,让机器学会“用声音认人”。在不断提高多环境语音识别准确性的同时,实现从“识别”到“理解”的跨越。(本文摘自粹客网)
……
关注读览天下微信,
100万篇深度好文,
等你来看……