走近科幻
- 来源:信息方略 smarty:if $article.tag?>
- 关键字:情人节,科幻片,Siri smarty:/if?>
- 发布时间:2013-08-28 10:36
下班回家路上,路过一个商场,琳琅满目的商品,每次眼睛与安装在各个角落的电子眼交汇,都会有不同的信息弹出来。“今天是情人节,本店推出鲜花特售,所有老顾客均可获赠红玫瑰一只,新顾客可以享受9折优惠,并附赠5元代金券。为您太太送上一束玫瑰吧,感谢五年来她对你的呵护”,这时你还hold住吗?想必你该掏钱了,因为你知道不买花回去,太太会不开心。
其实,这已不完全是科幻片里的类似场景。在2013年的英特尔信息技术峰会(IDF)大会上,就有类似的展示:让电脑的摄像头捕捉到你的表情,就可以让电脑知道你在考虑什么想要去做什么,从而做出反馈;或者是让电脑成为你的个人助理,在回家路上,路过一个花店,计算机就自动提示,如果不买花回去,太太会很不高兴。
这种面部识别技术正是从去年以来一直在吸引人们眼球的感知计算技术的一部分。除面部识别外,还有我们更常见的语音识别,以及并不常见的非接触式手势控制和眼球控制,这些都被英特尔整合起来,称之为感知计算。这些技术,触控、手势识别、眼球识别、语音识别、面部识别等多种识别技术正在逐渐改变人与电脑之间的交互模式,就像英特尔副总裁兼感知计算业务总经理Mooly Eden所说,这是以更加自然(Natural)、直观(Intuitive)、身临其境(Immersive)的方式,重新定义用户的计算体验,重塑人机互动的未来图景。
玩转酷炫产品
在电子产品更新快、竞争激烈的大环境中,如何让自己的产品抓住用户的眼球,一些酷炫好玩的功能是最快的捷径。一些感知计算领域的玩家更是很清楚地意识到这一点,从Siri的流行,到微软Kinect的体感识别,再到LeapMotion玩转谷歌地球以及三星Galaxy S4的眼球识别,都成功吸引了人们的关注,以致于它们都能未销先热。
Siri在2010年被苹果以两亿美金收购后,与全球最大的语音识别厂商Nuance合作,从刚开始的以文字聊天服务为主,转向了语音识别功能。使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。不过其最大的特色,则是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予的回答,也不会答非所问,有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了“喝了点”、“家”这些字(甚至不需要符合语法,相当人性化...),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。正是因为其生动的人机互动对话接口,才使其迅速流行起来,热播美剧《生活大爆炸》中还有一个桥段是印度宅男Raj恋上Siri,从这个侧面也反映出Siri在对话接口上处理得确实很好,连印度口音都能识别,还有什么能难倒“她”呢。
而微软Kinect的体感识别则带来比手柄更加丰富的动感游戏体验,它是一种3D体感摄影机(开发代号“Project Natal”),同时它导入了即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。微软互动娱乐业务副总裁唐·马特里克(Don Mattrick)这样评价Kinect:“这个技术让我们在不用发售新主机的情况下就可以步入一个互动娱乐的新纪元。”微软的Kinect不需要使用任何控制器,它依靠相机捕捉三维空间中玩家的运动。微软指出它会让系统更加简易操作来吸引大众。
另外,这个系统也能辨识人脸,让玩家自动连上游戏。它还可辨认声音和接受命令。在游戏示范中,玩家们用脚踢仅存在于屏幕中的足球,并用伸手设法拦阻进球;在驾驶游戏中,玩家转动想像中的方向盘来操控电视游戏中的赛车;在绘画游戏,玩家则是说出颜色“蓝色”或“浅褐色”然后摇摆双臂来在数码式画板上飞溅一片油漆。日前,微软亚洲实验室又成功利用Kinect研发手语识别软件,这个软件能够根据手语动作的追踪识别进而转换成为正常人能够读懂的内容,不需要学习手语就能和身边的残疾朋友交流。在视频演示中,可以清楚看到该软件目前的两种模式,一种是翻译模式,能够将手语转换成为文字或者声音等正常人能够识别的交流载体;第二种是通信模式,通过文字输入将其转换成为3D模型的手语,这样没有学过手语的正常人和残疾人就可以进行通信。
Leap Motion识别并绑定手,手指或者类似手指的工具,这款设备能够在毫米级别的前提下实现操作和帧率的绑定,基于Leap的SDK的软件能够分析在设备视野内的物体,并对手,手指和工具的位置,手势和动作做出反应,能够让用户在手中“玩转”谷歌地球。而三星明星产品Galaxy S3的接力产品GalaxyS4则不只是能支持手势控制操作,S4还能跟踪用户的视线:它知道什么时候用户在观看电影或视频,如果用户离开屏幕,视频就会自动暂停,回到屏幕时视频就会继续播放。它还通过面部识别,使用户无需触摸屏幕即可滚动浏览网页或翻阅邮件。
这些看似酷炫的产品功能其实归根结底是随着科技的发展,人们对更自然、更符合人类行为习惯的人机交互的追求。这种追求帮助人类走近科幻世界,开启更加便捷自然的人机交互。正如Mooly Eden所言,在这个时代,“电脑变得更加智能,并且很贴心,知道我们在想什么,能读懂我们的身体,读懂我们的语言,甚至知道我们的思想。”
什么在阻碍它们
感知计算,这个概念提出并没有很长时间,但是作为每个独立的感知计算分支,语音识别、手势控制、面部识别、眼球追踪都有一段历史了,它们最开始都是在国防军工领域被使用,就像在间谍、科幻类影视中所描绘得那样。但是为什么在最近几年才真正开始流行起来,被大家所关注,不再高高在上,遥不可及,这跟近几年来IT技术的发展,各种移动智能设备的流行有密不可分的关系。
随着苹果iOS和谷歌Android平台的流行,语音识别得以发展,但仍然不足以精确到可以不要键盘,而且还需要连接到互联网才正常工作。XBOX Kinect语音交互的神奇在于其有限的词典,即“说你看到什么”的方法、双麦克风和“波束成形”。微软的方法在游戏环境中使用得不错,但在需要跨不同设备进行广泛使用时还是不自然。谷歌的Nexus7则提供了面部识别功能,但这些功能都很慢且容易被图片、视频或面具所愚弄。就拿微软的Kinect来说,它使用了两个摄像头,但仍不能准确地检测特定手指和关节。虽然处理是在摄像头和XBOX上完成,但用户必须呆在房间里的某个地方,而游戏也仅限于需要最少计算资源的不复杂游戏。此外,三星S4的用户还有这样的烦恼,虽然该机型配备了眼球追踪功能,但是很多用户并不敢时时开启,因为其电量损耗非常大,以至于不能支撑一天的时间,从而影响手机传统功能的正常使用。
所以说,感知计算的发展之所以比较缓慢,归根结底还是这些新兴技术不够成熟,其用户体验没能达到人们预期的那样,人机交互不够自然。就已经比较常见语音识别来讲,要说其达到真正意义上的自然互动,可能还是有一段距离,而且准确性也仍然有待提高。
更自然、更流畅的人机交互
感知计算技术中,语音识别与面部识别相对有较长的历史,成熟度也已经较高,从上文中提到的Siri能够顺利识别印度口音就可以证实这一点,但是就国内而言,语音识别的发展还不够成熟,因为中文识别本身更加困难,所以在体验中经常会“翻译为”错误的搜索指令。
不过在之前召开的新一代“语音云”发布暨语音开发者大会上,被称为中国版Siri的中文语音第一品牌科大讯飞还是让参会者眼前一亮。科大讯飞董事长刘庆峰演示了这样一幕对话,“汉堡包多少钱一个‘英文怎么说?’”,手机马上就翻译出来了:“How muchis a hamburger?” 他也表示,随着语音识别技术走向成熟,“移动互联网正进入‘语时代’,各类网络服务将变得更为好用。”
但是,怎样才能更加好用?这是要解决的首要问题。首先能耗问题必须解决,这些功能应该成为用户的行为习惯,而不是炫酷的手段,所以,未来的语音识别、面部识别,以及正在兴起的非接触式手势控制、眼球追踪和唇语识别等,都需要以非常低的功耗,使用大量本地计算性能使用自然用户界面。另外,为了让计算机更好地识别人的各种身体语言,需要在个人PC或者其他智能设备上配置两个以上的高分辨率摄像头,绘制人脸的三维视图。但是,这同样面临着同一个挑战,就是这些都需要大量的处理性能和大量的电力,不仅是计算引擎、而且高分辨率和立体摄像头都需要。
不过人类一直在寻找解决办法,从研究更高效的电池到发明快速充电、无线充电等让充电变得更加便捷的方法,但是最惊人还不是这些,最省电的方法,其实是不耗电。这个也不是空穴来风,实际上,华盛顿大学的工程师团队近日公布了一项名为“环境信号逆散射技术”的传输技术,就可能实现上面的“天方夜谭”。如果未来能投入商用,将会为移动设备、智能穿戴设备等带来非常大的变革。
梁欢