与智能视频监控有关的技术挑战

  在大数据里,监控视频的数据占比较高,2010年差不多占到50%左右,到2015年可能会接近70%。当然,随着大数据越来越多,整个监控视频的比例会慢慢减少,但是即使减少,在2020年也能达到40%以上,所以这个数据处理的问题很重要。视频监控是一座城市安全的重要保障,在平安城市、数字城市建设中起着至关重要的作用。主要的挑战可概括为三个:存不下、找不到、看不清。这三个挑战具体涉及到的是三个技术问题,第一个存不下的问题,事实上是编码压缩的问题。第二个找不到实际上是搜索的问题,当然搜索的话,有的专家经过星期六在论坛上汤晓鸥教授的报告之后,大家就会清楚,我们是多摄像机网络,要想比较有效的搜索,光看一个摄像机的内容是不够的,摄像机和摄像机之间必须要联合起来一起看,所以这个就是在多摄像机网络里面的搜索问题。第三个挑战是所谓的看不清,现在的监控视频摄象头的质量是不行的,所以导致现在即使拍到了这张照片,但是人可能是看不清的。

  编码压缩的问题

  第一个存不下的问题,事实上是编码压缩的问题。视频编码的进展还是比较快的,但是技术的进步和数据增长的速度比起来,根本没有办法吻合,因为技术是每十年翻一倍,但是我们知道大数据,尤其是和监控有关的大数据,增长起来非常的快,所以靠传统技术的进步来解决数据本身增长量显然是不够的。具体说来,这个技术要解决是视频数据的编码效率问题,如果你有办法把这个视频数据很好的压缩了,那么传输、存储也可能不是大问题了。这个方面实际上我们是希望找到一个特别是对于监控视频比较有效的压缩方法。

  在视频编码里面,有三个技术是比较关键的,第一个技术是变换技术,就是把实滤的信号放在频率上处理,使得用一些数据工具能很好的进行编码压缩。第二个是预测技术,靠的是在同一帧和不同帧里找到相同的东西。第三个是商业编码,每一个东西都有信息商,如果用商业编码来表达就会更加有效率。所有的视频编码实际上是这三个技术的组合,这个技术实际上是有一个理论上限,我们现在可达到的成果离理论上限还有非常大的空间。

  面向监控视频,应该要用更好的技术,我们把它叫做Lone—termVirtual,是长时的、虚拟帧的参考技术。所谓长时,就是因为场景可以长时间的使用,所谓的帧其实不是一个真的帧,是算出来的,通过模型的方法来产生,用这样的方法效率就比较高。这种想法是不管拍自然景物,还是会议视频,实际上有很多东西是不变的,只有少部分是变的,如果把少部分变的东西检测出来,不变的东西可以一直在使用,这样就可以提高编码效率。这里最关键的问题是区分背景和前景,背景用长时间不用的东西表达,前景我用精细的编码表达。为了把背景找到,我们就提出了一个技术———基帧产生技术。有了这项技术就可以很容易把一个图像序列的前景、背景分离出来了。知道了前景和背景,有了这样的结构,接下来就是怎么编的问题了,这样比原来做的视频编码要简单得多。

  此外,还有一项技术不仅仅和监控视频有关,与互联网视频也有关,我们把它叫做Free—term编码结构,这个完全是面向大数据的。

  互联网上有非常多的视频和图像,从这些东西中可以提取出一个很好的缩影,可以利用这个缩影进行检索,也就是说有了这个大数据了,可以通过一些稀疏的表达来构造一个东西,然后利用这个东西来编辑编码,使编译效率更高。

  有效搜索的问题

  搜索的问题在这里面有这样的几个问题:对象能不能检测得到?检测的对象能不能跟得上?不同摄像机为了跟上,怎么切换?前两个问题是一般模式必须要解决的问题,里面有很多必须要解决的技术。

  到目前为止基本上是摄象头接收信息,把接收到的信息送回来,已经做了编码压缩,要在根上解开,然后再做分析。先有编码,然后是解码,然后再做检测。如果用前面说的这种想法,因为一开始我们有5分钟的前景和背景,你的对象一定是前景上,所以只在前景上找就可以了,这样检测的效率就非常高。

  另外是跟踪,多摄像机的网络跟踪,摄像机和摄像机之间,它的位置、朝向、时间切换点等等,把这些参数很好的结合在一起,这个问题也可以推进,但是到目前为止,这个问题做得并不好,大家可以做的也就是十几个到几十个摄像机的跟踪,一个城市做几千个,几万个,几十万个,目前根本做不到。

  我们希望原来把编码和分析像一个火车的两条轨道完全平衡,使得所做的技术融合在一起,集中在一个编码的框架下。如果有了这个东西,实际上在摄象头那一端抓回来的东西,前景直接可以进入到对象的描述和表达,可以基于前景来描述出相关的内容,比如说有哪些区域在前景上,然后把若干的图像和若干个摄象头的东西融合在一起,最后可以分析出来他的行为是什么,这样就可以直接进入到视频监控的环节,这个是很理想的状态。有了这个,视频监控才能够真正的融合到智慧城市里。

  为了做这件事,技术上需要有一个完整的描述,简单地说就是我们现在要制订一个很好的语法,语法里面有很多的描述词,通过描述词和语法的组合,可以把很多的行为、很多的事件都描述出来,包括车是正常行进还是非正常行进,或者是一堆人是正常的行为,还是非正常的行为,通过这个描述都可以做得到。基于这样的一个前景的技术,在有了前景之后,利用前景的描述,很容易就把很多对象流检测出来。只要关注前景的东西,就可以在上面进行分析。

  视频质量的问题

  看不清的问题应该是传统的问题了,现在的摄象头质量不行,所以使得两个方面达不到进行很好识别的要求。第一个问题是摄象头进来的方向的图像分辨率不够,第二个问题是图像的清晰度不够,由于各种各样的原因,比如说光照的原因等等,这两个问题是挑战性的问题。现在很多人在研究这方面的问题,当然最理想、最根本的办法是把摄象头的分辨率提上来,这个不是一两天可以做得到,现在布下去那么多的摄象头,真正满足要求的摄象头是少之又少的,最好的是4K的摄象头,这个是很少的,随着时间的推移,要慢慢推好的分辨率高的摄象头。例如人脸识别这件事,目前的摄象头很难做得很好,现在的摄象头,比如用算法可以识别的,大概的识别率是60%、70%,要想提高到80%多,就要换4K的摄象头,这个是我们必须要做的事。

  但是,我们还可以从后台弥补摄象头不足的问题,即抛分辨率,通过不同的算法把分辨率提上来。除了这个方法之外,还有一个方法,就是把视频流里面多个照片用在一起,最后使得分辨率提升。

  在这个科技飞速发展的时代,大数据、云计算、移动互联网等新一代信息技术相互交叉融合的时代,传统智能视频监控需紧跟时代潮流,不断创新与革新。随着数字城市建设的广泛推进,视频监控技术将面临着一系列的挑战,对于企业而言,拥有过硬的视频监控技术是应对挑战、分得数字城市建设一杯羹的关键筹码之一。

  (以上内容系根据高文院士在“第二届智慧城市与智能系统院士论坛”上的演讲整理而成)

  中国工程院院士 高文

关注读览天下微信, 100万篇深度好文, 等你来看……