当计算机开始感知

  “一个放在桌子上的杯子,用鼠标是拿不到的,但感知计算可以。”同声(TheBestSync)公司的总监林云帆一手搭在鼠标上,看着固定在笔记本电脑显示屏上方的摄像头说。

  这可不是普通的摄像头,林云帆所提到的“感知计算”全靠它来完成。这款由英特尔开发的感知计算开发平台(摄像头与SDK开发包),集成了近距离的手和手指跟踪、语音识别、人脸分析以及增强现实技术,以上全部功能都可以通过同一个硬件实现。目前,林云帆所带领的团队已开发出了一款通过手势控制音乐播放的应用JOY,曾获得英特尔感知计算挑战赛最高荣誉。同时获奖的还有另外两款应用,分别利用感知计算来作画和玩简单的手势游戏。

  “感知计算”听起来似乎是个新名词。但是,如果用另一个说法似乎就并不陌生了:“人机交互”。在英特尔,研究人机交互的历史可以追溯到20多年前。“其实英特尔一直以来都在后面做这些事情,然后由最终客户把他们的东西做到我们的平台展示给消费者。”英特尔中国个人电脑事业部市场总监吴竹如告诉《21CBR》记者。一直以来,英特尔的个人电脑事业部、移动事业部、软件服务部等很多部门都在尝试研究更新的人机交互技术,也就是如今提到的“感知计算”技术。

  三年前,英特尔以以色列和美国总部为主成立了“感知计算部”专注感知计算技术开发。在去年的IDF大会(英特尔开发论坛)上正式推出了感知计算软件开发工具包2013(Perceptual Computing SDK 2013)测试版。据英特尔介绍,目前中国的合作开发者主要聚焦在人脸识别、手势和语音三个领域。

  利用英特尔提供的感知计算开发平台,同声已经开始了JOY的商业化,进一步优化产品。在同声的资深程序工程师梁俊的演示下,《21CBR》记者看到,用户可以在距离摄像头较近的距离下进行手势操作,精确度很高,完全可以实现电脑界面上的操作。据介绍,区别于Kinect等最短距离为1米的体感设备,感知计算的摄像头被设计为近场控制,虽说一到两米也是允许范围,但最佳距离为30厘米到70厘米。

  除了手势的控制,在面部识别模块,摄像头能够识别用户的人数、性别、年龄段以及表情(目前只有微笑一种)等信息。林云帆告诉《21CBR》记者,同声已经着手开发三个同时运用手势、语音以及脸部识别技术的综合应用,并将其作为参加新一届挑战赛的作品,预计9月就能看到产品的视频发布。

  而消费者要接触到带有感知计算的电子产品,或许在2014年就能够实现。届时,用户界面将更加简洁,“我们最终的设想是将摄像头的工艺放到每台电脑上,把它做得更小,可以嵌入我们的平板电脑或是笔记本电脑里去”,吴竹如向《21CBR》记者透露。

  作为开发者,林云帆认为能够用同一个SDK实现所有感知计算的集成是非常重要的。从平台的角度看,开发者不需要考虑跨平台开发或者兼容的问题;从硬件的角度看,集成能够实现硬件资源的优化。“从技术层面来说,不同的技术是需要多线程处理的。如果仅仅运行脸部识别系统资源的占用率就很高了,这时候就根本不可能加入手部和语音识别。就像现在有的手机虽然也能运行脸部识别,但是会占用很多资源,当你再开语音的时候,系统就跑不动了,这种情况下是不可能多元化的。当英特尔把所有技术集成并保持在一个非常低的系统占用率时,多元化就能够实现了。毕竟,在硬件上支持一个技术与软件层面的支持是完全不一样的。”林云帆向《21CBR》记者解释道。

  而最后一点,也是至关重要的,那就是用户体验了。在这方面,英特尔也表达出了对体验的重视,“如果技术过于超前,无法把用户体验做得更精致,对人们来说并无益处。我们觉得现在这个时间做感知计算是正确的,因为我们的核心运算技术发展很快,陆陆续续会推出第四、五代品牌。英特尔推出感知计算就是要优化人机交互,计算优化后,我们的用户才能有更好的体验。”吴竹如向《21CBR》如是说。

  同声可以说是在国内最早投入感知技术应用开发的团队,但事实上,同声并非一间科技公司,而是在影音制作行业浸淫了10多年的广告公司。由于客户的需求发生了变化,从而推动同声向技术开发延伸,成立了由10多人组成的数字部门。了解用户并且擅长设计包装的同声自然对用户体验极为重视,这也是林云帆为何下注感知计算的原因。

  “感知计算所代表的是一种更综合更健全的输入方式,更自然的人机交互模式。在现实生活中,人与人的交流主要运用的就是声音、手势以及脸部表情。从这点看,感知计算已经非常接近于人与人的交流模式了,这种感受一定是通过综合功能实现的。当融合了多种技术的系统能够低占用率地运行,开发者就能够盖更高的楼,开发更漂亮的应用,舒服地展现给用户。”林云帆告诉《21CBR》记者。

  感知计算这种新的输入方式,并非是要取代鼠标、键盘与触摸屏,它是一种比后者更聪明的人际交互方式,在这种情况下,用户的界面的变化是无限的。如同文章开头的例子,当控制计算的能力增强时,多种技术得以叠加,人、机器、现实环境就可以进行互动,实现增强现实(AR)。“AR是现实环境与虚拟信息进行融合的一种方式,是一个表现形式,从输入方式到表现方式是一个整体,因此更全面的输入方式很重要。”

  强调综合的输入方式,并非纸上谈兵。事实上,如果长时间使用一种体感输入方式,就好比长时间使用鼠标一样,并不利于体验,而且会导致疲劳。“比如当你用手势识别设备控制电脑时,会有一个很大的困惑:为什么我不直接用鼠标?鼠标显然更加精确,更加方便。”在林云帆看来,新一代的输入方式不应该是反传统的,不应该只是单一维度的,应该有更大的延展性。

  在延展性方面,英特尔也正在充分发挥着想象力。感知计算最核心的技术是“感知”和“计算”,“感知”是实现感知计算的第一步,即感应和收集数据用以进行计算。“我们要突破的核心就是采集数据,”吴竹如打趣地说,“就好比摄像头是眼睛,麦克风是嘴巴。但目前,我们还没有把鼻子做好。”

  除去拟人,“感知”最主要的途径是模仿大自然。“因为大自然的演变这么多年,我们可以学到很多采集信息的方法。就好像我们以前在幻想飞的时候,我们可以看到鸟是怎么飞。”吴竹如告诉《21CBR》记者说,“未来,你可以想象到的大自然所有可以传感的东西,包括你的皮肤,你的第六感,这些都是可以采集的。”(本刊记者罗东对本文亦有贡献)

  文/本刊记者 邱月烨 熊元

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: