语音交互的“金矿”

  • 来源:IT经理世界
  • 关键字:语音交互,人工智能
  • 发布时间:2017-12-21 09:43

  人工智能等技术都在背后加快着计算机的“听说”功能。

  对着谷歌 Home智能音箱,“偷偷”告诉它你想买买买的东西。英语、法语、西班牙语、印度语……语言没有阻碍你的手机会瞬间知晓这个“秘密”,并且还能显示搜索结果。

  当然,除了懂得多国语言,谷歌 Home的语音配对(Voice Match)功能,可以让最多六个用户连接到同一台音箱。据说它是首个具备此功能的智能音箱,也因此显得与其它智能音箱更加不同。

  现在,语音助手已然成为智能手机们的标配,有“个性”就成为差异化的要素。比如苹果的Siri是个段子手、三星的Bixby成了消除孤独寂寞冷的高手……

  去年10月推出的谷歌 Pixel手机在今年升级后会展现什么样的个性呢?这可能要取决于 “谷歌 Assistant”的发挥。

  这个工具能够整合日历和事件功能,可以根据用户当前的位置、活动项目整合服务,而不再是单一的网络搜索功能。“在不同设备之间通用的谷歌 Assistant,通过机器学习,会随着时间的推移而变得越发强大。”谷歌 Assistant 工程总监Pravir Gupta说。

  这是谷歌正在探索的软件硬件结合的模式。人工智能等技术都在背后加快着计算机的“听说”功能。比如深度神经网络技术提高了语音搜索中语音识别的准确性,这使得用户在嘈杂的环境中也可以与手机自由对话。在机器学习的帮助下,自然语言处理系统能够更好地理解人们想说的话。

  现在谷歌语音搜索支持 119 种语言,其中包括 11 种印度语言和 3 种印度尼西亚语言。Pixel Buds是一种能实时将你周围别人说的话翻译成你的母语的耳机,运用了语音识别和翻译技术。有了它你就能在陌生的语言环境中漫游,几秒钟后便能翻译成你的母语。这项技术的翻译效果也将随着时间的推移得到显著的提升。

  另一方面,机器学习正在实现文本向语音转换,通过转换引擎,手机可以用语料并不丰富的语种,比如孟加拉语、高棉语和爪哇语与人们对话。机器学习模型有助于减少构建文本到语音模型所需的数据量。

  人工智能等技术也反过来被应用到最新一代的Pixel手机中。机器学习和计算摄影技术的结合使新款Pixel 手机具备了人像模式功能。这个功能能够在拍摄人像时柔和虚化背景,让Pixel在拍照功能上能够和IPHONE 7 Plus之后的手机媲美。

  语音的新战场

  好的医疗文档有助于医疗团队成员更好的照顾病患。现在医生们经常要在工作日中花6~11小时在电子病历上,医生们尝试使用工具来创建医患对话的日志。而语音技术在“翻译”医患对话上找到了新的战场。

  谷歌 Brain团队尝试使用谷歌 Assistant、谷歌 Home以及谷歌 Translate来纪录医患对话,并总结记录。在“医疗对话中的语音识别”项目中,这个团队展示了使用自动语音识别模型纪录医疗对话的可能。大部分现有的医疗自动语音识别解决方案,主要是识别医生医嘱,也就是说识别一个人的专用医疗术语。而这个项目是建立能够识别多人对话,并且内容涵盖从天气到医疗判断的语音模型。

  谷歌的这个团队与斯坦福大学的医生和研究者一起开展工作。实际上,斯坦福大学已经在使用技术提升医生满意度上做了广泛研究,理解类似自动语音识别技术如何抓取医生的记录。

  在一项研究中,团队研究了何种类型的医疗相关信息能够被从医疗对话中抽取出来,从而降低医生不断打开电子病例的频率。这项研究获得了病人的授权,并且为了保护个人隐私而模糊了病患身份。谷歌团队希望这项研究不仅能降低医生的日常工作负载,还能帮助病患得到更好的医疗照顾。

  掘金大部队

  除了谷歌之外,微软、亚马逊等公司都是语音识别市场上的主要玩家。为推动AI语音技术发展、同时阻击苹果和谷歌等竞争对手,微软和亚马逊还选择“抱团”策略,双方在9月就AI语音助手合作达成了共识,将双方各自的智能语音助理Cortana和Alexa进行整合。

  通过此次合作,双方的语音助手将能够互相激活。亚马逊Alexa的用户可以访问微软Cortana的一些特有功能,如工作日历,阅读工作邮件。而Cortana的用户可以通过Alexa在亚马逊网站上购物,也可以控制家中的智能设备。不过,评论认为有一个现实壁垒摆在微软和亚马逊面前,这两家公司都没有自己的智能手机。

  微软旗下的智能语音助手Cortana与亚马逊旗下的Alexa、谷歌旗下的谷歌 assistant和苹果旗下的Siri正在智能家居领域铺开全面竞争,这几家IT巨头都在试图将旗下的智能语音服务渗透到人们生活的各个场景中争夺入口。

  三星除了自有的Bixbay外,还奉行开放策略。三星电子旗下音箱和汽车零部件企业哈曼国际公司所推出的音箱分别支持谷歌Assistant、亚马逊 Alexa 以及微软 Cortana。哈曼旗下拥有JBL等多个知名品牌。语音操控系统与硬件的结合,成为巨头公司圈地之战。

  不过,作为人类延长器官而存在的智能手机决定了这才是语音识别技术的最大战场。一项调查显示,语音识别市场在2023年将价值183亿美元,年复合增长率将达到19.8%。

  文/正月

关注读览天下微信, 100万篇深度好文, 等你来看……