深度学习基于图像的三维重建研究

  • 来源:学习导刊
  • 关键字:三维重建,深度学习,图像
  • 发布时间:2022-01-05 10:46

  摘要:基于图像三维重建是计算机视觉领域多年探索的重要研究问题,其在视觉感知、环境识别、三维建模等领域也有着十分重要的意义。本文将对深度学习在基于图像的物体三维重建领域的研究进行综述。主要介绍了基于图像的三维重建的研究背景,图像重建的几种传统方法以及深度学习实现的有代表性的经典框架、算法及网络模型得出结论。

  1.研究背景

  三维重建指对图像或者其深度信息进行三维模型还原重建的过程。其中涉及了包括多视图立体几何、深度图估计、网格重建、优化等技术,可应用于虚拟现实(VR)、增强现实(AR)、自动驾驶等领域。三维重建方法有多种分类。基于单图重建是从给定的单幅图像中提取目标的二维几何信息,利用先验知识推测被遮挡部分,重构出完整的三维结构。而基于多图像的重建要求输入一系列图像,运用相关原理还原深度信息重建三维模型,相较基于单图重建,虽然克服了其因几何信息不完整,造成图像的属性、重建不适应等部分问题[1],但由于要从多方位测定重建对象更为耗费资源。

  2.传统三维重建方法

  因为存在的诸多技术问题与难点,传统的三维重建方法中大多以基于多目图像实现为主。

  2.1 基于RGB-D 的重建

  消费级RGB-D 相机的出现推动了三维场景重建方法进步,实现了用RGB-D 相机捕捉动、静场景的综合形状模型,带动了相关技术水平在多方面的飞跃 [2]。KinectFusion[3]出现于 2011 年,提出基于RGB-D 相机实时三维重建的概念。重建流程包含在预处理阶段,输入的深度图通过双边滤波等相关处理,得到点云图及法向量图。在表面预测阶段对TSDF(Truncated Signed Distance Function)模型进行投影,估计出当前模型的稠密表面。返回前一帧计算出的预测表面,通过ICP 算法结合当前帧的测量表面得到对应的相机位姿,将此信息整合融入到网格模型中并更新。最后,用TSDF 模型及位姿信息预测表面,当前位姿作为下一帧信息材料的前一帧被读入预测位姿,并形成闭环开始循环整个过程。

  2.2 基于MVS 的三维重建

  MVS 以一系列图像实现重建,过程可以基本概括为图像采集、位姿计算、模型重建、纹理贴图4 个部分。视频或同一物体的多张无规则图片都可被采集输入。利用计算的位姿信息结合RGB 图像可重建出对象的网格模型,整个过程由稠密重建到融合深度图为点云,重建曲面,最后优化为精细度较高的网格模型。常见的MVS 有COLMAP,MVE,OpenMVS 等,一般采用SFM 或Slam 进行位姿计算。综合各项性能效果等结果, CPLMAP 结合OpenMVS 是目前基于MVS 重建中比较主流的方案。

  3.基于深度学习的三维重建方法

  近年来深度学习在三维重建上取得了很大的成功。卷积神经网络在特征匹配上的应用使立体匹配的精度得到提升,基于学习的方法可以引入如镜面先验和反射先验等全局语义信息,使匹配更加鲁棒,从而解决传统方法无法克服的难题。

  MVSNet[4]是2018 年提出的一种基于深度学习的端到端的多视图深度预测网络。其模型结构主要包含了特征提取、构造代价体、代价正则化和深度估计与优化几个步骤,输入一张参考图像与多张源图像,输出预测的参考图像深度图。该方法首先用一个八层二维卷积神经网络提取图像的深度特征,通过调整第三、六层步长划分出三个尺度的输出特征,输出32 通道的特征图用于后续的稠密匹配。MVSNet 的代价体构建基于参考相机的视角平面进行,将提取的图像特征通过可微的单应性变换使不同视角下的图像特征变换到参考图像的视角下,这个过程将会产生多个特征体,通过聚合这些特征体则构建出一个统一的代价体。使用一个四级多尺度卷积优化代价体生成概率空间,即每个像素在每个深度下的可能性大小,用于后续深度预测的同时也可用于测量估计的置信度。概率图获取深度估计,对深度图进行过滤,最后利用参考图像的边界信息优化深度图,提升边缘部分的精度。

  4.分析与总结

  传统方法通常直接输入深度图得到对应点云或三维网格模型,而学习框架则一般先由匹配代价计算、代价聚合等过程得到深度图或视差图。

  作为基于深度相机重建的先行者,KinectFusion 提出并使用 TSDF 模型实现实时重建,但由于需要大量内存,模型精细度有所限制。同时因位姿计算仅在帧之间进行,过程中有持续的误差累积,模型对齐与拼接上可能产生偏移问题,后续皆在内存与漂移上优化改进。传统MVS 使用光度一致性等来计算稠密的三维信息,通过稠密匹配方式恢复物体、场景的三维结构。虽然深度估计精度、重建准确度较高,但在如弱纹理,高反光和重复纹理等场景中常出现错误匹配,使重建困难或不完整。 MVSNet 是第一个使用深度学习实现MVS 重建的框架,克服了传统MVS 中可能存在的部分问题,但当训练数据异常时,训练精度损失,将可能直接影响深度图与后续点云、网格模型精度,在有遮挡的情况下,训练结果也不尽如人意,这些问题需要依靠数据集的更新而完善。

  当今大数据时代,传统视觉算法似乎已经遇到了瓶颈,纵观各行业、领域都在深度学习的方向研究。近年来,计算机视觉发展迅猛,基于深度学习实现三维重建的新方法频繁出现在各大视觉会议论文中,计算机视觉将迎来更好的发展时代。

  参考文献:

  [1]朱莉,陈辉.基于深度学习的单幅图像三维重建算法[J], 吉林化工学院学报,2020,37(01):58-62.

  [2]迈克尔-佐尔霍夫, 帕特里克-斯托特科, 安德烈亚斯- 格尔利茨等.基于RGB-D 相机进行三维重建的技术现状[J],计算机图形学论坛, 2018,37:625-652.

  [3]纽科姆等. KinectFusion:实时稠密表面测绘和跟踪 [C],2011 年第十届IEEE 混合和增强现实国际研讨会, 2011:127-136.

  [4]Yao Yao, Zixin Luo, Shiwei Li 等. MVSNet:非结构化多视图立体的深度推断[J],欧洲计算机视觉会议论文集, 2018:767-783.

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: