我说你做人工智能的武器：智能语音识别技术

来源:微型计算机
关键字:人工智能,语音识别
发布时间:2018-06-15 14:21

　　想象一下，在不久的将来，你和朋友坐在客厅里谈论着旅游规划，当大家都不清楚交通路线、旅游景点时，你扭过头对着电脑说到：“小娜，去这里怎么样？帮我们安排一下！”接着你们都收到了完善的旅游规划，甚至连乘坐的车辆都在屋外准备妥当。这就是未来人工智能下的典型生活场景，而在这样的场景下，所有的一切都离不开一个让机器听懂人话的技术—智能语音识别。

　　语音识别技术究竟是何物？

　　究竟什么是语音识别技术？翻阅百科，可以看到语音识别技术被称为自动语音识别（Automatic Speech Recognition，简称ASR），它可以看成是自然语言处理（NLP）的主要范畴，它以语音为研究对象，目标是将人类的声音信号转化为文字或者指令，让机器自动识别和理解人类语言，以此实现语音对机器的智能操控。ASR的技术原理首先是麦克风负责收集用户声音，软件将音频进行处理，包括VAD、分帧、mfcc特征提取。特征提取之后，结合大量数据训练出声学模型和描述语句文字出现概率的语言模型，通过语音解码和搜索算法最终将音频输出为文字。

　　早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。而最早的基于电子计算机的语音识别系统则是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰，该系统得到了98%的正确率。到1950年代末，伦敦学院的Denes已经将语法概率加入语音识别中。1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear PredicTIve Coding(LPC)，及动态时间弯折Dynamic Time Warp技术。

　　语音识别技术的最重大突破是隐含马尔科夫模型Hidden MarkovModel的应用。从Baum提出相关数学推理，经过Labiner等人的研究，当时卡内基梅隆大学的李开复最终实现了第一个基于隐马尔可夫模型(HMM)的大词汇量语音识别系统Sphinx。值得一提的是，此后严格来说语音识别技术并没有脱离隐马尔可夫模型(HMM)框架。

　　到了20世纪80年代末，实验室语音识别研究取得巨大突破。这一阶段，人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

　　这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

　　20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking等。

　　智能语音技术人机交互的革命

　　在人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别也开始被越来越多的人所关注。想象一下，在不久的将来，你和朋友坐在客厅里谈论着旅游规划，当大家都不清楚交通路线、旅游景点时，你扭过头对着电脑说到：“小娜，去这里怎么样？帮我们安排一下！”接着你们都收到了完善的旅游规划，连乘坐的车辆都在屋外准备妥当。在车上，你只需说出几个简单的词语，便可获得旅途所需的一切，车载MMI人机交互系统可智能识别语音指令，轻松控制导航，语音通话、娱乐系统等各项功能让汽车不再冰冷，而变得更有智慧。将电子设备从过去的工具变成与人交谈的“伙伴”，这就是智能语音交互的强大魔力。

　　在传统的PC时代，人们主要通过键盘、鼠标等输入设备和电脑进行“交流”，与机器“沟通”还需要学会打字、按键操作。到了以智能手机为主的移动互联网时代，人们通过触摸屏幕与智能手机“交流”，只需滑一滑手指即可完成任务。而在即将到来的人工智能时代，所有的设备将更像人类的一员，与它们之间的交互方式也将更趋同于与人之间交互，而要做到像“人”一样交流，这些设备就必须具备语音识别技术。可以说，语音识别就是人机交互史上的一次革命。

　　事实上确实如此，如今语音识别正以磅礴之势占据着一个时代的智能高点。根据谷歌不久前发布的一项调查报告显示，13岁到18岁之间的青少年中，每天使用语音搜索的人数比率约55％；而在成年人中，约有56％的人表示使用语音搜索会令他们感觉自己很懂技术。随着大数据、机器学习、云计算、人工智能等技术的发展，语音识别正在一步步解放用户的双手，大有取代鼠标、键盘之势。伴随着智能移动设备的普及，语音交互作为一种新型的人机交互方式，也越来越受到IT行业的青睐。

　　如今，提起语音识别的应用，可能很多人都会想到Siri语音助手，而像Siri这类语音助手正是科技巨头们竞相争夺的领域，谷歌有Assistant，亚马逊有Alexa，微软有Cortana，它们要么依托于手机平台要么依托于电脑或者智能音箱，正一步一步拉开人工智能社会的帷幕。如今，除了手机、电脑或者智能音箱平台，智能语音技术在被应用在了更多的领域，比如在智能车载场景中，用语音代替手势来控制汽车中的功能可避免司机过度分散注意力，保证行车安全；而在教育领域，语音识别辅助英语教学和中英文同声翻译，你只需对着手机说出想要翻译的句子，即可得到中英文双重语音播读结果。

　　为人工智能加上翅膀

　　经过近几年技术的不断发展，语音识别技术已经有了突破性进展。早在2017年8月20日，微软便宣称其语音识别系统错误率由5.9%降低到5.1%，可达到专业速记员的水平。如今国内的阿里巴巴、百度、腾讯等科技企业也纷纷参与并发力语音识别领域。更重要的是，当前语音识别技术不仅仅只用于之前提到的手机交互、智能音箱命令，其在金融、汽车、医疗、教育、工业等诸多领域都发挥着重要作用。

　　当这一技术达到成熟的阶段后，语音识别在接下来需要完成的是从“识别”到“感知”再到“认知”的进化。特别是在即将到来的人工智能时代，针对机器人交互的语音交互，语义的理解会越来越重要，而这将真正推动语音从识别走向交互的自然体验，从而推动人工智能再次向前迈进一步。不过，这并不容易，自然语言理解目前还是人工智能遭遇的难点之一。比如句子“我们把香蕉给猴子，因为（它们）饿了”和“我们把香蕉给猴子，因为（它们）熟透了”有同样的结构，但是代词“它们”在第一句中指的是“猴子”，在第二句中指的是“香蕉”。如果不了解猴子和香蕉的属性，那么人工智能设备也无法区分。人类从小到大、通过与现实物理世界不断交互感知和学习产生的，而计算机怎么去表示、获取、学习常识，并将常识与数据结合是个挑战，目前全世界都在尝试解决这个问题。

　　展望未来，如今科技企业、研究人员正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。从更长远来看，研究者还会关注如何教计算机不只是转录来自人类嘴巴的声音信号，而且还要理解他们所说的话。相信随着语音识别技术的不断进步，我们离真正的人工智能时代会越来越近。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容

我说你做 人工智能的武器：智能语音识别技术

我说你做人工智能的武器：智能语音识别技术