Kinect,看手势!

  尹丹丹是北京联合大学特殊教育学院的一名听障学生,手语是她和外界沟通的主要方式;而Matt Scott是个地地道道讲英语而且不懂手语的美国人。看上去,他们俩似乎很难即时交流。

  但他们又确实在沟通着:尹丹丹的手语被同步翻译成英文和中文显示在大屏幕上,Matt Scott的回复则同样被同步翻译成中文,以及一个虚拟形象在屏幕上打着手语。尽管两人的交流短促而简单,但还算有效。

  这是微软亚洲研究院创新日2013的一幕,该活动旨在展示微软亚洲研究院的最新科研方向和成果,包括大数据与机器学习、云计算与移动技术、自然用户界面等方向的研究成果。而在尹丹丹和来自微软亚洲研究院的Matt Scott沟通过程中,所涉及到的手语和语言实时翻译系统,则是创新日三个舞台展示项目中最重要的部分——“基于Kinect的手语翻译系统”。

  顾名思义,该系统是以机器翻译和自然语言处理、语音和手势识别等领域的研究成果为基础,借助Kinect设备对手语进行识别和翻译,同时,该系统支持对汉语手语和英语手语的识别与翻译,并能将文本信息反向翻译为手语。

  “Kinect”无疑是这项技术中最引人关注的词汇。对微软而言,Kinect可能是史上最成功的硬件产品,从诞生伊始,就被微软给予了无数游戏之外的想象力——围绕动作捕捉来衍生各式各样和人们生活、工作息息相关的应用,并将其扩展到更广袤的商业领域。但这并不是一件顺理成章的事情,因为“Kinect”的扩展还需要涉及到动作捕捉技术本身的改进和相关配套设施的构建,就如这项“基于Kinect的手语翻译系统”。

  正如微软亚洲研究院院长洪小文所说:“即使人来辨认手语都需要学习很长的时间,别提是机器来学习,特别是那些细微的手势。Kinect可以识别,但如果只给你一个Kinect,没有其他的技术配合支持,很多事情也做不了。”

  微软亚洲研究院的一位技术人员告诉《二十一世纪商业评论》记者,对手势识别来说,控制游戏的动作相对简单,Kinect只要做到判断基本手势和位置,生成一帧一帧的画面就可以了,这种实时给出一帧帧画面的技术很重要。但如果用到识别细微的手势应用中,只看其中的一帧或许会出现差错,因此“需要把对手势的经验和判断加进去,很多帧在一起就可以把错误排除掉”。

  洪小文用高尔夫球的案例做了一个比喻:“比如我们在模拟高尔夫球挥杆的时候,挥动的手如果被挡住了,摄像头看不到,就可能产生错误。但如果我们知道是你在打高尔夫球,以及你的习惯是什么,能够把每一帧的信息拿出来加到一起,再基于对动作的了解把相应的规则也加进去,就能把识别做到精准。”

  对手语翻译系统来说,识别手势只是开始。微软亚洲研究院的另一个工作人员介绍,如果是一个孤立的词,其实通过手势捕捉和轨迹判定来判断是哪个词儿还相对容易一些,但如果是一个句子,词与词之间是有衔接关系的,那么就可能会“翻译”出歧义,这时候就要通过语言模型来计算语句成立的概率。

  这意味着两点:数据的积累和协作。

  微软亚洲研究院学术合作部总监潘天佑介绍道,“基于Kinect的手语翻译系统”实际上是三方——微软亚洲研究院、中国科学院计算技术研究所、北京联合大学特殊教育学院——合作的产物。对于微软而言,主要是提供各式各样的技术和计算平台,比如Kinect,以及屏幕上出现的3D动态的虚拟人物。同时,英文、中文之间的翻译以及与手语之间的转换,微软也提供相应的技术。云平台也会在翻译系统中发挥重要的作用,洪小文介绍:“翻译一定是服务型的,原因非常简单,语言是会变化的。而且在中国新的词经常在产生,光字典就要不断翻新,所以这个要做成服务,做到云里而不能只做到所谓的设备上面去。”而中国科学院计算技术研究所提供的则是有关于机器识别手语的技术积累,至于北京联合大学特殊教育学院,潘天佑介绍:“其实他们是对手语了解最深入的,毕竟我们的系统研发过程中需要大量关于手语数据的积累,以及系统研发出来之后还要进行反复的练习,这些资源都是由北京联合大学提供的。”

  但即使如此,手语翻译系统还只是一个雏形,目前能够识别4000多个词汇,但显然还远远不够。未来,除了继续训练“系统”识别手势和语言翻译的能力,其应用场景的扩散也是非常重要的课题,就如洪小文所说:“今天大家看到丹丹和MattScott两个展示者的沟通没有问题,在实验室也没有问题。但是拿到外面去用,换了使用者,还要迎接非常多的技术挑战。比如即使我们有Kinect,但识别手势的时候,拍摄距离有多远?光线明暗会不会有影响?同时如果把这样的设备和服务做到移动端,那么接下来还要考虑很多问题,比如有没有足够的CPU来带动计算?有没有足够的能力来跑程序并且不需要耗费太多电?摄像头是放在手机上还是外置?”

  对微软而言,手语翻译系统只是Kinect扩展应用的一个领域,洪小文希望Kinect可以做更多的事情:“大多数人在Kinect上面做的是很简单的手势,我们希望一步一步把复杂的手势加进去。在新出的Xbox Kinect上,人们已经可以用一些手势来控制电视了。微软的Xbox在E3(The Electronic Entertainment Expo)2013大会上做了一些演示,手在空中一拉就是全屏。这是远程操作的。但事实上,远程有相当大的难度。在未来,不仅是手语,我想可以把全身的肢体语言都囊括进来,让我们实现远程地对计算机进行控制。”(插图/林潢)

  文/本刊记者 罗东

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: