智能语音技术：超越人类水平

来源:大学生
关键字:智能语音
发布时间:2017-01-16 11:02

　　智能购物助理，对着它说你想买什么，它就能运用语音识别软件记录下来，并分好类。当你去购物前打印出来即可

　　就在十几年以前，基于人工智能的语音识别和合成还仅是科幻电影的元素。那个时候，人们认为“能和人类对话”、“替人类讲话”等技术还有很长的路要走。

　　2014年，在英国雷丁大学举办的图灵测试竞赛上，人类设计的机器问答对话系统首次通过了著名的“图灵测试”。图灵测试是由计算科学领域的大师阿兰·图灵在1950年提出的，他认为如果设备能在5分钟内答由人类测试者提出的一系列问题，且其超过30%的回答让测试者认为是人类所答，则可以认为这个设备具备人工智能。64年后的这次测试中，俄罗斯人维西罗夫的人工智能软件“尤金”成功地让测试者在33%的情况下认为是在与人类对话。

　　这之后智能语言的发展就一发不可收拾了，成为各个国家科学家和业内领先企业的重要突破口。

　　很快，以科大讯飞为代表的语音识别的精度提高到了95%以上。

　　微软研究院的系统可以达到与人类相同的对话水准，实现了历史性的突破。从谷歌大脑（Google Brain）项目中脱颖而出的谷歌翻译，已经接近人类笔译的水平。

　　就在2016年10月，微软又宣布，其语音识别系统的词错率降低到5.9%，这已经相当于人类专业速录员的水平。这意味着，计算机第一次在对话中的词汇识别上做到跟人类一样好。

　　现如今，在智能语音技术上，各个公司的目标已经定位在“超越人类水平”，请注意：不是超越人类设计制造的智能设备或者程序，而是超越人类本身。

　　一个古老的方向

　　语音技术一直是考验计算机智能水平最重要的一块“试金石”之一。在众多的计算科学子学科里，语音技术应该算是最古老的方向之一了。教科书里普遍把智能语音技术的最早实质性实践定位在1952年贝尔实验室设计实现的Audrey系统上，这是一次里程碑式的突破，计算机历史上第一次正确识别出了十个阿拉伯数字的读音及含义。

　　不过事实上，与智能语音技术相关的工作早在一个世纪前就开始了。1877年，爱迪生发明了留声机，可以把声音记录和重放。这个看似简单的发明其实奠定了语音相关研究的基础。因为只有人们可以正确记录和播放声音，才有可能去研究它。

　　1936年，贝尔实验室的工程师们设计实现了Voder系统，这是人类第一个电子声音合成系统，自此开创了一个新的学科。1952年，贝尔实验室的Audrey也利用了Voder，这样他们才既可以听懂十个阿拉伯数字，又可以“说出”十个阿拉伯数字，这样一个完整的机器对话系统算是有了雏形。

　　有了这样的开局，人们都看到了希望，各大公司和大学等机构投入巨资去研究语音识别技术。1962年，IBM的“鞋盒子”（Shoebox system）可以听懂16个英文单词；1971年，美国DARPA(美国国防部下属的研发机构)资助的项目组演示了可以识别1000个单词的技术，紧接着卡耐基梅隆大学的Harpy系统就能听懂1000多个单词了。虽然这个早期阶段被业内人士称为仅是“baby talk”，但是他们的积极尝试给以后语音技术大发展奠定了重要的理论及实践基础。

　　上世纪八十年代开始，由于引入了一个隐藏马尔科夫模型（Hidden Markov Model HMM），这个领域产生了质的飞跃，语音识别的准确度和合成的精度都大幅提升。这个模型的发明人就是大名鼎鼎的数学家雷昂纳德鲍姆，他也是华尔街量化交易的奠基人之一。有了这一利器，语音技术的发展一发不可收拾，各种越来越智能的语音系统层出不穷，可以商用的系统也开始进入家庭（如Julie娃娃），走进个人电脑（如微软office语音识别系统），手机（如苹果的Siri）和互联网（如谷歌的voice search）。这一阶段是智能语音技术发展的“飞跃时期”，语音识别和合成技术真正走向实用，并在全社会的各个角落开花结果。

　　然而，智能语音领域的专家和开拓者一直有一个梦想，就是创造出真正可以和人类对话的人工智能系统。就这样，故事回到了本文开头时提到的2014年图灵测试竞赛。不过，“尤金”的成功仍只是个开头，这个领域在近两年进入了真正的黄金时代。随着深度学习的引入，机器可以更加深入地学习并理解语音；配以更高性能CPU和GPU的智能终端和机器人们，可以更高速地处理语音，理解更深层次的语义；高速网络、云计算和大数据的支持使得人们可以让机器进行更大规模的统计训练，学习海量的语素，更有效地理解和还原各种人类语言的含义……

　　在2016BOT大数据应用大赛上，闯进决赛的11个机器人项目无一例外地展现了成熟且强大的智能语音能力，这些应用范围非常广，涵盖了购物、招聘、法律、旅游、教育、保健、客服、投资等多个领域，着实让人眼前一亮。如智能购车顾问，它将购车过程中的所有知识和大家的需求都纳入了学习的范围，结合互联网海量的汽车评论，在对话中通过了解用户的属性、需求、说话方式来推测适合用户的车。还有的将机器人对话应用在人力资源领域，以后使用这种技术的公司就不用安排宝贵的人力去做首轮面试了，支持智能语音能力的机器人就可以胜任了。

　　也就在前不久，美国《华盛顿邮报》报道了一个出人意料的新职业：机器人作家。报道认为电脑已经具备学习和理解人类语言中深层次东西的能力，因此具备了成为诗人、剧作家、小说家的潜质。就在今年的里约奥运会上，这家报纸就把这个新“记者”邀请到报道团队中，它的名字叫“Heliograf”。在里约奥运会上，一些初级的报道内容（比如说奖牌榜、比赛时间、新媒体互动等）全部是这个“新入行”的记者完成的。

　　2016年，白宫在Facebook上为总统奥巴马“聘请”了一位机器人，用以增强总统与普通民众之间的交流。要知道美国总统是个很忙的职业，但是在Facebook上，每天有数以十万计的民众给他留言，希望得到一个回复。这时候，聊天机器人就有用武之地了。这个“总统发言人”可以从大量的留言中归类筛选出最有人气的问题发给总统。在奥巴马回复之后，机器人又可以把这些回复变换成合适的句式和语气回复给广大的网友。

　　可以预见到，在不久的将来，智能语音技术将催生更多的创新，迸发出更大的能量。

　　数字语音技术图谱

　　用起来简单的智能语音技术并不简单，在端到端的应用中，需要多种技术来支持。

　　首先，要“听得懂”。基本的语音识别过程中，首先会利用移动窗口函数将一段连续的语音波形切开成一小段一小段，每小段称为一帧。分帧之后，需要对每一个小段进行波形变换，根据人耳的生理特性进行特征提取，将这些表面上杂乱无章的内容变成具有不同特征的多维向量，从而组成不同的状态，这一步是语音识别中最难的地方。解决这个问题最成熟的方法就是运用隐藏马尔可夫模型（HMM），将各个帧最合理地组成状态再把状态组合成因素，最后将因素组合成单词。

　　其次，要“传得开”。由于要动用大量的后台资源进行模型训练、语音分解和语义理解，语音的压缩和传输技术也是必不可少的一环。随着各种高保真立体声的语音压缩技术的引入，在各种应用中参与交流的各方都可以接收到高质量的话音。

　　再者，要“答得出”。在正确识别出语音的基本语素，同时能保证高质量的传输后，需要人工智能技术来弄懂这里面的深刻含义，并给出正确合理的答案。自然语言处理（NLP）是这个领域最核心的技术，同时也是一个非常广博的技术方向，其中包括词类标注、词法分析、句法分析、篇章分析、情感分析等多个技术。早期的NLP受到计算能力的限制，往往采用一些基本的机器学习算法来进行分类、理解和整理，精度不是很高，只能满足特定场景的应用。随着计算能力的提升，网络质量的提高以及大数据技术的引入，人们可以采用更复杂的深度学习来进行这项工作。

　　最后，要“说得出”。在智能语音技术中，数字语音合成这个领域最早产生大规模的应用。在机场、火车站、智能手机、导航、商场等多个领域，文字转语音（Text-To-Speech，TTS）都发挥着巨大的作用。后来，TTS系统不仅可以自动合成语音，还能根据现场环境、情感和语境来变换语速和语调，还能模拟特定人物的语音，“志玲姐姐”就在某导航软件中通过TTS技术展现出来。如今，机器人可以利用这项技术可以不费吹灰之力将自然语言处理的结果展现出来，惟妙惟肖，生动可人。

　　文/杨玄章

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容