让语音引爆数据

来源:计算机世界
关键字:美剧,语音
发布时间:2013-11-04 15:16

　　美剧迷一定不会忘记《生活大爆炸》里来自印度的Raj购入iPhone 4S后，与Siri“谈情说爱”的情节。自从苹果在iPhone 4S上推出Siri以来，越来越多的人同智能手机对话，命令它们发送电子邮件、短信，查询路线以及在网上搜索信息。正是语音识别技术让这一切成为可能。

　　语音识别技术是让机器通过识别和理解把语音信号转变为相应的文本或命令，也就是将人类语音中的词汇内容转换为计算机可读的输入，比如按键、二进制编码或者字符序列等。

　　比尔·盖茨早在2007年时就公开表示，用不了多久，电脑键盘等外部输入设置，将完全让位给语音识别软件。

　　虽然盖茨的预言尚未成真，但无论是国际大牌企业微软、苹果、谷歌，还是本土专注语音识别技术的科大讯飞、车音网，都积极布局市场，并不断有新势力加入。那么，在这场充满未来感的大战中，语音识别技术面临着怎样的瓶颈？这类由语音驱动的业务又瞄准了什么商机呢？

　　巨头环伺

　　众所周知，Siri使用的语音识别技术来自于美国的语音技术公司Nuance。据资料显示，这家从上世纪90年代就从事语音识别技术研发的公司已经拥有了近4000项专利及知识产权，能够识别约60种语言及方言，奥迪、宝马、福特、通用等诸多汽车厂商都采用了Nuance的语音识别、合成、自然语言理解解决方案。

　　移动互联网时代，语音识别在人机交互方面有着独特应用价值，越来越多的IT巨头已经把触角伸向了语音识别领域。谷歌先后推出Voice Search和语音助手Google Now；微软推出了Microsoft speech SDK的开发包，让新开发的产品能嵌入语音识别和合成功能；英特尔的“感知计算”蓝图中将语音计算放在了显要的位置；移动智能设备领域炙手可热的三星也早在Galaxy系列设备中推出了个人语音控制系统S-Voice。在国内的语音市场，既有百度、搜狗这样的重量级玩家，也有传统巨头科大讯飞，同时还涌现出了一批诸如云知声、虫洞、智能360这样的后来者。

　　其实40多年前专家们就曾宣称，语音识别将在5～10年内发展为一项成熟的技术。可多年过后，为什么他们依然重复着一模一样的说辞？其实，提供一个语音交互界面远比理解一打单词来得复杂。

　　语音识别软件就如同一个人的耳朵和嘴巴，但缺少了大脑理解，这条沟通渠道仍然会受阻。除了语音技术本身外，人机语音交流中还有其他因素在作怪：输出方式、互动形式还有语境。服务器收到文字串以后，要如何分辨用户真正的意图？它是要查天气、看电视，还是购物？这需要语义理解，但不同的领域，语义理解差距太大，而且涉及的词汇和数据库也不同；接下来是知识图谱，如何将所有的知识通过类似于数据库和图的方式联系？虽然目前匹配的算法已经相对成熟，但其准确性仍然依赖数据源的丰富程度，同时要在不断产生的“交互数据”中动态调整匹配结果；至于排除环境噪音、音色等因素，还要依赖半导体传感技术的进步。

　　如同“数学是科学的皇冠”一样，语音行业技术也有一个“皇冠”，那就是“语音识别”。为什么语音识别是“皇冠”？两点理由：一是技术上最难，二是实用前景最大。所以要考察一家语音公司的技术水平如何，就看它是否能提供高性能的语音识别产品。

　　除了Siri， Nuance的另一款智能机应用Dragon提供的语言支持中也包括中国普通话。虽然中文版Dragon和其它多数语音识别软件一样不能达到百分之百准确，但从基本层面来说，还是非常不错的。首先，对于语音识别来说，中文极具挑战性，因为普通话有400个单音节声音，根据声调予以区别。尽管普通话是被官方极力推广的，但是中国还拥有很多种方言和数不尽的地方口音， Dragon研发副总裁Jim·Wu就曾表示：“在中国，每个人都有不同的口音，其中的一项挑战就是确保系统能够用于口音较轻的普通话用户。”

　　在中文语音识别市场，科大讯飞一家就占据了中文语音市场约80%的市场份额。科大讯飞一直说自己的行业门槛高，主要就是指语音识别技术的门槛高。

　　意在数据

　　今天，几乎所有手机厂商和消费电子公司都试图将语音识别技术嵌入在其移动产品、应用和服务中。然而，语音软件不具备用户粘性，无法直接提供服务和内容。“试想，用户将语音转化成文本之后，下一步要做什么，和讯飞语音识别应用有关系吗？目前它只能作为一个插件、工具服务于后端的内容，例如社交、购物、搜索引擎、智能问答等。”独立财经分析师范小明以科大讯飞举例说道。

　　2001年就推出了中文语音合成技术的北京捷通华声语音技术有限公司董事长张连毅表示：“从公司2000年成立以来，累计在语音技术上的投入至少超过两亿元。前七八年股东没从有限的利润中拿过一分钱，全部投入再开发。但由于市场有限，企业效益并不能立竿见影。”然而，张连毅口中“没钱肯定不行，但有钱也不一定就行”的语音识别技术为何还能吸引众多厂商？

　　他们的目的不单单是为了让手机用户“解放双手”，抑或是让已成颓势的PC借此焕发青春，他们其实是瞄准了搜索的未来——语音搜索和通过其得到的海量数据。

　　当你向个人语音助理如Siri发号施令时，苹果的服务器就能最先得到这个数据，也就是用户的语音样本。而正是通过采集这些语音样本，各公司才能进一步优化他们的语音识别技术。不仅如此，你通过Siri搜索，苹果会创建一个关于搜索条目的新型数据库，这与Google利用用户在搜索栏的搜索条目建立数据库其实是一个道理。而实际上，苹果的系统比这还要强大，它可以智能识别用户是否在搜索一些硬数据，即一些易于收集的可量化的事实，这也是最需要收集的理想数据，包括产出、质量、成本和时间四大类。这类请求苹果会传送给Siri背后的智能搜索引擎Wolfram Alpha，一个能根据问题直接给出答案的网站。

　　虽然技术的进步总是让人惊叹，但语音识别是否真的能够取代触控技术？目前业界对此的看法也还很不一致。一方面是其技术难度较大；另一方面，虽然在游戏等领域的应用可能会让人比较期待，但是在一些涉密问题上是否也能应用语音呢？反正我不会对着电脑说出账号和密码登录网银。

　　宋辰

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容