用互联网思维做语音识别

来源:中国计算机报
关键字:创新工场,语音识别,云知声
发布时间:2013-12-25 13:12

　　——访云知声总裁梁家恩

　　“今年3月，创新工场合伙人郎春晖对云知声的语音识别技术很感兴趣，约我到创新工场交流。李开复老师的博士论文就是关于语音识别的，但他觉得这项技术不可能做得多好，因此很久没有关注这个领域了。”云知声信息技术有限公司（下文简称云知声）总裁梁家恩说，“郎春晖把我拉进李开复的办公室，当着大家的面，他可能觉得不试试我们的产品也不好。连续试了几句话后，他惊讶地问道：你们怎么做到这种水平的？”

　　转机

　　让计算机能够识别人类的语音，从而使得人们能够用自己的母语与计算机进行人机交互，一直是计算机学科追求的目标之一。谈到语音识别，就不能不谈一下李开复。

　　1983年秋，李开复进入卡内基·梅隆大学，师从罗杰·瑞迪教授，攻读博士学位。瑞迪建议李开复选择不特定语者的语音识别系统作为研究方向，并建议采用专家系统的方法，来解决让电脑听懂每个人说的话的难题。瑞迪是人工智能领域的权威，后来还获得1994年图灵奖。经过近1年的研究，尽管研究有了一些进展，但李开复最终认识到，受技术发展的限制，专家系统相当长时间内难以解决这一难题。在一位同门师兄的提醒下，李开复转而采用统计模型的研究路径，终获成功。1988年，李开复获得博士学位。时至今日，语音识别技术依旧采用的是李开复开创的统计模型。

　　1998年，IBM中文语音识别技术Via Voice在国内PC市场掀起了一场中文语音输入热潮。第二年，当今国内最大的智能语音识别公司科大讯飞诞生于中国科技大学。

　　同年，出任微软中国研究院院长的李开复曾告诉媒体，语音识别需要的计算资源太多，实用化还要走很长的路。

　　“中文语音识别市场在2000年左右逐渐由热变冷，这主要是由于当时算法还比较初级，对计算资源的需求很大，产业环境也不成熟。于是，很多人转去做别的行业。也正是在这个时候，我们团队的主要成员初涉这个领域，进入研究所和高校读博读硕。”梁家恩就在那个时期考入中科院自动化所模式识别国家重点实验室。模式识别实验室分为图像识别和语音识别两大研究方向，图像识别领域诞生了汉王公司，而梁家恩则在语音识别领域历经5年寒窗，完成了硕博连读。

　　梁家恩介绍说：“我们这些人一直专注于语音识别和语义理解的研究。到了2010年左右，语音识别技术取得了突破性进展，移动互联网也得到普及。加之2011年10月苹果iPhone 4S发布，作为新产品一大亮点的智能语音助手Siri在市场上再次引爆语音识别热。我们觉得商业化的机会已经成熟，2012年6月，我们创建了云知声，并搭建了用于语音识别的公有云平台。”

　　突破

　　虽然现在的语音识别还是采用统计算法，但这十多年来，语音识别技术发展很快。

　　“首先是数据资源丰富了，以前在实验室收集几百个人的语音都非常困难，现在我们有了语音云平台，吸引了各地不同口音的人们，每天采集上百GB的数据量，样本非常丰富，这有利于分析和改进我们的系统。现在的样本规模比李开复老师当时做的系统的样本规模扩大了几个数量级，而且现在的数据都是真实数据，远非那时模拟数据所能比拟，这在统计算法中至关重要。”梁家恩表示。

　　“二是统计技术和神经网络学习等关键技术取得较大的突破，在环境噪声处理和对口音识别方面的改进非常明显，识别率显著提升。算法上也做了一些优化，以前的算法你要做一系列实验可能需要一两年的时间，根本没法实现。”梁家辉说，“再有就是智能手机中CPU技术的进步以及GPU的应用，加之后台云计算处理能力的提升，为智能语音识别提供了强大的计算资源。”

　　语音识别实际上是搜索。梁家恩介绍说，语音识别就是从一句话的声波中提取语音特征，然后与后台数据进行匹配，由于现在的数据库非常大，因此比对的精确度比过去要高得多。虽说都是搜索，但百度搜索是文本检索，它要求捕获全网信息的变化，即信息更新要快。而语音识别上，因为语音特征与文本并没有对应关系，因此，比对精确度就成为语音识别的核心技术所在。

　　由于面向语音识别这一特定应用，云知声的公有云平台与通用的云平台也有所区别。“我们底层采用的也是集群架构，单台服务器并发线程数达到100，这已是业界最快的；再通过灾备、安全等技术来确保平台的稳健；然后是将目前已经建立的北京、上海和广州机房的计算资源联在一起。我们也对虚拟化做了测试，但虚拟化会带来5%～10%的性能损失，这与我们追求性能最高化的目标不符合。因此，我们采用高性能计算平台，让硬件对语音识别这一特定应用进行优化。”

　　互联网思维

　　伴随着智能手机和平板电脑取代PC成为个人计算市场的主流，人机交互也从传统的键盘操作转换为触屏操作。而在注重用户体验的移动互联网时代，智能语音识别将带来更快更方便的用户体验，特别是在车载、可穿戴式电脑等应用上。

　　梁家恩认为，作为自然高效的交互方式，智能语音技术不仅要识别用户的话语，而且还要能够智能地通过屏幕或者TTS（从文本到语音）的方式实现与用户交流，因而在智能移动设备、广播电视、呼叫中心、会议记录、语言学习、知识学习、互动娱乐等领域有着广阔的应用前景。

　　“我想查一下今天晚上北京飞上海的航班。”在采访过程中梁家恩对着手机说，话音刚落，手机屏幕上刷新出北京至上海的航班信息。

　　这个简单的演示可以直白地反映出云知声的商业模式。由于智能手机与机主的对应关系，加之其定位和支付功能，这句话已经包含了这一具有在线支付手同的潜在顾客是谁、在什么地方、具体需求是什么。这对于商家而言，客户信息已经足够了，商家甚至还可以通过手机号码来关联客户的信用、过往的消费习惯等，从而做出精准的营销响应。

　　“我们不像现在市场有的语音识别公司那样，通过软件授权的方式向用户收费。我们相信互联网的力量，所有语音用户需求汇总到后台后，所蕴含的商业价值要远远大于软件授权带来的价值。”梁家恩说，“我们承诺将公有云平台服务的体验做到极致并且永远免费，同时云知声的智能语音技术向合作伙伴完全开放，即不限领域、不限形态、不限商业模式。当后台数据的商业价值变现时，我们将与合作伙伴分成。”

　　梁家恩介绍说，云知声目前已经拥有1500多家合作伙伴，如联想、乐视、同方、小米等设备商，搜狗、易信、人人网、触宝等互联网公司，通用、麦特等智能车载厂商，杏树林等医疗应用软件商。除了已经将语音技术嵌入到手机、搜索和智能电视等合作伙伴产品中外，云知声还在跟呼叫中心洽谈合作。

　　技术实力和商业模式让成立仅1年的云知声，拿到了1亿元的A轮融资。

　　本报记者马文方

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容