聚力维度:VR的产学研样本
- 来源:小康 smarty:if $article.tag?>
- 关键字:聚力维度,VR,阿凡达 smarty:/if?>
- 发布时间:2016-09-27 11:11
“科研的目的是要满足现实的需求,不能总是关在实验室里,要去市场摸爬滚打。”——聚力维度创始人赵天奇
把手机装在VR(虚拟现实)头盔上,将设备带在头上,眼前就出现了360度环状影院,随着视线的移动,模拟焦点落到其中一块荧幕上,点击侧面的确认钮,手机里的照片或视频就能近距离地出现在眼前。
在被称为“VR元年”的2016年,这样的场景已不足为奇,但多为2D的显示效果,离身临其境还有很大距离,照片、视频如此,游戏亦是如此,这正是VR发展所遇到的瓶颈之一。如何破解?赵天奇和他的聚力维度或许可以给出一些线索。
VR是最佳的3D观影模式
在北京聚力维度科技有限公司(下文简称“聚力维度”)的实验室,《小康》记者在VR头盔中看到了一张一百多年前的日俄战争照片,与普通照片不同,这张照片是以3D方式呈现的,加上VR近距离的感官,照片桌子上的一根蜡烛仿佛唾手可得。
随着虚拟焦点的确认,画风一转,变成了一只喘气的小狗,起初它朝左边看,突然转过头扑向了记者,记者下意识举起了双手,没想却扑了个空。“这只小狗蹦过来的时候,我们资深的设计师也吓了一跳。”聚力维度创始人兼CTO(首席技术官)赵天奇笑道。
3D VR甚至还进入了直播领域。画风又是一转,记者出现在2016年上海国际电影节的红毯边,佟大为正带着他的萌宝在向观众招手,距离最近时他的手似乎也能摸到。“VR头盔是观看3D视频的天然方式,即便用360度的2D显示方式也很难突显出VR的特性。”赵天奇强调,“当天我们就用这种3D的方式让很多用户参与了上海国际电影节。”
既然3D显示与VR头盔有如此高的契合度,为何市面上的产品却不多呢?赵天奇的解释是,并非是硬件技术不过关,而是由于3D视频拍摄的难度大、范围窄、成本高而导致的内容缺乏,这直接影响了用户体验。
“很多平台提供的VR素材就几百部,远不及传统影视几十乃至上百万的规模,有3D 360度环绕的更是少之又少,因此有些平台就通过设计家庭影院背景皮肤来弥补。”VR资深玩家郭飞说道,“此外,3D视频的数据量大,如果想体验高画质,网速跟不上,体验就又打折扣了。”
尽管如此,市场对VR却有着非常高的预期。根据中国电子信息产业发展研究院旗下赛迪智库在9月7日发布的《虚拟现实产业与应用发展白皮书》称,2015年中国VR行业市场规模为15.4亿元人民币,预测2016年将达到56.5亿元人民币。
在如此利好形势下,关键是尽可能多地增加观众与VR的黏合度,因此,相较于硬件设备,VR内容被国内企业寄予厚望,其中3D显示是重要组成部分,这也是聚力维度的主攻方向。“这些年来我们都专注做一件事,即用人工智能的方式实现2D转3D。”赵天奇补充道,“你之前在VR头盔中看到的画面都是用这种方式实现的。”
深度学习的“黑匣子”
其实,赵天奇最早想做的就是人工智能领域,然而,当深入了解当时的发展动态后,他发现人工智能延续的是脑科学纯生物的研究路线,短时间内很难应用于实际生产中,而他最想做的是能把科研成果快速应用于产业中,满足人类发展的需求。因此,他把注意力转到了人类获取信息的最主要方式——视觉成像。2008年,他选择了全息图像作为其研究生主攻方向。
很快,他就发现全息图像虽然能把真实目光还原,但并不如3D显示的效果,在经过一番斟酌后,他把方向定为了3D显示与3D处理。“这个领域还有一点吸引我的是它的活跃度,古人说‘眼见为实’,只要能把真东西拿出来给大家看,大家就服,发展非常快。”赵天奇笑道。
2009年电影《阿凡达》的火爆让全球影迷感受到了3D成像的魅力,这给了赵天奇极大的鼓舞,触动了他内心的一根弦。“我做科研的目的是要满足现实的需求,不能总是关在实验室里,要去市场摸爬滚打。”赵天奇回忆道,“3D技术包括显示、传输、处理、交互,是一个巨大的产业。”同年,他创立了自己的工作室,次年成立了公司。
进入市场后,赵天奇发现一方面由于3D显示是新兴技术,很多镜头拍摄不了,另一方面,已有的2D拍摄产业链已经非常成熟,摄影师、调色师、剪辑师等各环节的角色转换需要很长时间,再加上成本高、投入大,导致市场上70、80%的3D显示都是由2D转换而来的。
“不同于人脸识别,3D显示要求对每个画面的每个像素值都要给出答案,就是对全图的反馈。”赵天奇强调,传统的2D转3D技术主要分为4步,即图像分割、深度绘制、补图以及合成,如果每一道工序都是人工操作,那合在一起的人工成本将非常高,如果让其自动完成,哪怕仅仅是一道工序,也能大大降低成本。
于是,赵天奇带领他的团队开始绞尽脑汁研发相关技术,2011年,他们发现补图这一步可以通过图像技术自动完成,随着这项技术的攻克,他们也注册了自主知识产权。
机会是留给有准备的人,当年正好有一部动画片《郑和魔海寻踪》需要大量的补图,他们就带着自己的技术参与投标。当时,一同竞争的还有日本白组动画制作公司,白组公司为了进入中国市场,它的报价甚至比本国还要低。然而,由于他们主要依靠人工进行补图,最终的报价依然比赵天奇团队报价高很多。再加之本土的优势,赵天奇团队顺利拿下了标的。
一时的成功更促使赵天奇他们砥砺前行,“我们的基因决定我们要不断研发,核心竞争力不能受制于人。”赵天奇强调,“既然我们能写代码,就要走自己的路,不能让我们天马行空的想法被条条框框给束缚住。”随后,他们将更多力量投入到了研发上。
自动补图仅仅解决了一个环节的问题,还有三个环节怎么办?其实第一步的图像分割是最耗人工的,而且立体程度越高意味着分割越细。“我们也找过很多图像方面的技术,但都是看起来很美,却解决不了生产力的问题。”赵天奇皱眉道,比如一片树叶,在实验室里用前沿技术很容易实现景深分割,而且效果非常炫丽,但关键问题是影视作品内容的无规律性可能让整部电影都没有一片树叶。“这样的例子还有很多,这是传统图形图像学的一个死门。”赵天奇苦笑道,“还不如一个让人工操作不需等待的实时显示算法实用。”
难道就没有自动转换的方法了吗?彼时,赵天奇回忆起了2008年的一篇论文,文章通过统计的方法,在数学建模上已经实现了图像的自动转换。然而,当他把这篇文章翻出来应用于实践时,对于某一个小类别图像成像确实3d效果很好,但当图像元素过多,这种基于概率的方式再次进入了死门。
到处碰壁并没有让他们丧失信心,他们想到了最初的兴趣点:人工智能。“深度学习”的概念随之进入了视野。早在2006年,有关深度学习的论文就已经发表,但到2009年才逐渐形成了影响力,2012年深度学习在计算机图像处理竞赛中的应用更让其备受关注。“深度学习底层算法的趋势就是为了解决未知的、没有设定好的元素,这不正好破了那道死门吗?”赵天奇兴奋地说道。
如同发现猎物的猎人,赵天奇带领他的团队立即着手对深度学习进行跟进学习和研发,经过一年多时间,终于在2014年底实现了第一张全图的自动转换。2015年初,第一个有生产价值的模型研发成功,他们亲切地称它为“机器立体设计师”,并将其命名为“峥嵘一号”。“峥嵘一号”第一次的视频转制测试大大超出了他们的预期,但在细节部分还满足不了消费者的要求。于是,聚力维度进一步深挖,2015年年终,“峥嵘一号”最终成型。
“深度学习就像一个黑匣子,我们也不知道最终会出现什么效果。”赵天奇说道。有一次,“峥嵘一号”在转换图像时,在一帧画面中突然蹦出一个人影,技术人员都认为这是计算错误,因为在原画面中并没有看到这个人,后来通过调高对比度才发现,原来他藏在原画中的阴影里。
“深度学习的效果大家有目共睹,目前已经达到了准商业的门槛。”赵天奇笑道,如今,“峥嵘二号”已经诞生,“峥嵘三号”也在研发中,随着“峥嵘”系列的发展,聚力维度已完成了第一部2D转3D的电视剧,并将投放入VR平台的内容库中。未来,聚力维度还将进一步用深度学习技术精耕2D转3D产业链。
产学研注入勃勃生机
学习创业两不误。在创业过程中,赵天奇还顺利地拿到了北京邮电大学博士学位并进入清华大学做博士后。“别看我开公司好像不务正业,实际上,无论是在高校,还是在企业,我都是在做同一件事,技术研发。”赵天奇笑道。
如今,聚力维度依然保持着与北邮、清华以及澳大利亚阿德莱德大学等高校的紧密合作。“早在2009年我创业的时候,就写下了一个签名:做而不学则浅,学而不做则浮。”赵天奇回忆道。为了接地气,赵天奇经常与产业界的同人交流挖掘用户需求,为了掌握最前沿的技术和动态,他不断阅读最新的论文成果并与高校科研团队探讨。“正是有这样的信念让我时刻牢记自己的核心竞争力。”
清华大学自动化系戴琼海教授带领的团队是聚力维度的重要合作伙伴,他们非常认可这种合作。“产学研是一种很好的高校与产业界合作的模式。”戴琼海团队的核心成员徐枫博士说道,“对于工程学科,研究的本质目的是为产业服务,如果长期不能与产业结合,就背离了本质目标。”
产学研的核心是对变化的快速反应,因此,聚力维度非常推崇扁平化管理,赵天奇在公司的主要办公位就设在研发中心,他的独立办公室也经常处于开放状态。“我们的竞争力是高科技,现在高科技领域百花齐放,变化非常快,因此,执行力非常关键。”赵天奇表示,“我们会选择扁平化的制度一直走下去。”
正是有这样的理念和制度,在与清华大学合作的过程中,双方基本没有磨合期。“双方本身就有非常好的互信基础,就是要把清华最前沿的新媒体和人工智能技术送出象牙塔,连接最真实的需求,创造最大的价值。”徐枫说道。
随着产学研的推进,双方都获得了巨大的收获,清华大学的团队因为市场对真实场景的需求而激发出了很多灵感,释放了更大的科研潜力,不仅实现了诸多人工智能和VR领域的科研突破,也修整了诸如图像深度估计研究等产业前端的算法。
而这样的碰撞也让聚力维度产生了对VR领域独到的理解和认知。“无论VR还是AR,从本质上讲,它们都在颠覆人和世界的关系。”赵天奇分析道,“在科幻小说中,有神经元与电脑相连接通世界的桥段,这毕竟离我们太过遥远。改变这种关系的主要路径是修改现实世界,球幕电影、主题乐园都是如此,但成本非常高,难度非常大。相对而言,可穿戴设备则是最简单的方式,VR就是用视觉颠覆了这种关系,这不是一个具体的行业,很可能要覆盖所有行业。学习成本非常高,怎么办?用虚拟现实。去不了美国、法国,怎么办?戴上VR头盔就好了。这将释放多大的生产力?形成多大的需求?”
文|《小康》记者 洪治