数字视网膜消除智能交通痛点

  智能交通之所以被称为“智能”,是因为它可以通过一些技术手段来提高效率。比如,它可以知道哪条路上车多,哪条路上车少。虽然,以前的信号控制系统也做了很多类似工作,但那些系统大部分是通过地面的线圈,或是通过摄像头采集到的信息来进行输入。今天我要和大家分享的,就是将最现代化的传感器和计算系统结合在一起,将智能交通这件事做好。

  什么是数字视网膜

  首先,我们来了解一下什么叫数字视网膜。实际上,数字视网膜现在已经形成了大规模的系统,这个系统要如何把视频“看到”的东西很好地协调起来,需要解决三个问题:一个是为什么,一个是怎么做,一个是具体的概念是什么。

  从整体来讲,无论是数字视网膜,还是图像处理或视频处理,都经过了漫长的演化进程。举个例子,视频处理技术刚出现的时候,模拟的是照相机,那时大概是在 19 世纪中前期;后来,从伦敦开始,人们慢慢将这些图像以及其传达的内容利用起来,一直到 19 世纪中叶以后,人们开始把模拟图像变成数字图像,进行处理和传输;到了今天,图像处理从卫星图像到医学图像等领域不断发展,甚至覆盖了我们生活的各个方面。

  以前人们在这一方面的处理能力不强,但现在,摄像头和传感器的发展越来越好,云计算也出现了。以前的摄像头现在成了摄像机网络,由几千个、几万个摄像头联系在一起。原先简单的云存储也变成了现在复杂的城市大脑,一个城市有一个总存储中心和若干个分存储中心。智能交通的决策分析都在总中心进行,而数据则从最末端的每个摄像头传输到分存储中心,再汇总到总中心。那么,这些数据具体是怎么过来的?以前的模式就是,摄像头把拍到的内容用编码器压缩后传送回来,到了总中心再解压,通过基于手工的系统来提取有用信息,并分析识别。随着人工智能技术越来越成熟,上述手工完成的工作都交给了深度神经网络来做,只要有足够的算力就够了。

  但是,这样一个系统,真的能提高效率吗?如果效率不行,又是因为什么原因呢?刚刚说过,摄像头拍到画面后要进行压缩,然后传到总中心解码,再进行特征提取、分析、识别。实际上,这个过程需要一定的时间,很难达到实时的效果。为了解决这个问题,人们不停地升级系统,还加了许多特殊的智能摄像头来直接识别一些特征,不再经过编码的過程,由此来节约时间。

  这种解决方案真的好吗?其实不然。因为,这样做确实可以解决一些小问题,但是它带来了更多的大问题。现在的摄像机网络规模很大,所以它收集的数据也非常大。然而,数据大不等于大数据。这些摄像头拍下来的东西,85%—90% 都是监控视频的数据,很难对整个城市的管理和规划改进有帮助;而且,它们存储的时间最长也只有三个月,可能在两个星期的时候就被覆盖了或是废弃了。

  这样的超大数据量仅有一个超低的价值密度,我们应该想办法去转换,让它变得更有价值。问题其实出在架构上。按照原来的架构,几乎 99% 的摄像头只是用来拍摄,然后将内容编码,即便它们传输的数据以后发挥了作用,摄像头的贡献也是极小的。所以,我们要想办法让摄像头干更多的活儿,但又不是将其升级为简单的智能摄像头来识别人脸或车牌。

  真正有用的方法是,让摄像头将有用的数据抽取出来,传送到云,然后作为一个富有价值的大数据在云里处理并长期保存。这是从生物界受到的启发。

  无论是人还是动物,我们都有眼睛,并且效率非常高。眼睛获取光学信号是通过视网膜来获取,视网膜里有两种比较关键的细胞,感光细胞和锥状细胞,这两种细胞加起来有 1.26 亿,而我们平时看到的东西,都是通过这些细胞来传到大脑的。不过,在信息往后传的时候,经过了若干层,每传一层信息都会进行缩减,一直传到脑神经的连接地方。

  举两个例子,一个正常的孩子在学习的过程中,实际是把神经的全连接网络进行了增强和剪裁,有些连接变得越来越粗,有些连接慢慢就萎缩掉,最后能有效率地辨别事物。相反,一个患有自闭症的孩子末端神经和脑端神经一样粗,而是没有进行过裁剪的全连接,他的注意力很难集中。这也就说明了信息缩减的重要性,但目前我们的摄像头没有信息缩减这个功能,相当于一个“自闭系统”。所以,我们的系统要像人的视觉系统一样,把信息缩减了再往上送。

  数字视网膜的

  三个最本质特征

  为了做这件事,去年我们发表了一篇《数字视网膜智慧城市系统演进的关键环节》的文章。

  如果用了所谓的数字视网膜,这件事就可以解决了,数字视网膜有八个最主要的特性,我汇总了三个最本质的特征:

  第一个特征叫做全局统一的时空 ID,每个摄像头要有一个全局统一的时空 ID,地理位置是全局统一;每个摄像头只要是送信息回来,马上就知道这是全局统一几点几分的时间发生的事,发生的物理地点是在哪里。

  第二个特征就是视网膜本身要有高效视频编码的能力和联合优化的能力。高效视频编码方面现在有很多标准,像 AVS 标准、MPEG4 等。特征编码现在的标准有 MPEG、CDVS 标准、CDVA 标准。如果在一个码流里,同时要监控视频编码和特征编码的话,要想办法让它们可以联合优化。

  第三个本质特征就是模型可更新,注意可调节,软件可定义,这也是三个不同的要求。我们现在都是用神经网络模型,随着时间推移可能会有新的算法出来,所以,数字视网膜要模型可更新的。换句话说,每个摄像头上的算法都是可以升级的。注意可调节,主要是可以后台控制它。同一个画面里的东西,优先级在每个地方都是不一样的,我们可以赋予它一个感兴趣区域的功能,让它有注意一些特别重要的区域,并保留这个区域的信息。软件可定义,可以通过软件升级来实现软件可定义。

  这种新的数字视网膜实际有三个流,不像传统的摄像头就是一个流,即一个视频压缩流或一个识别结果流。数字视网膜的三个流包括视频编码流,特征编码流,模型编码流。当然这三个流是有分工的,有的是在前端可以实时控制调节,有的是通过云端反馈出来进行调节和控制的。这就是数字视网膜。实际上,数字视网膜主要是通过脑眼合一的方式,将未来终端的信息,通过数字视网膜的处理,送到云端的。

  现在,我们在深圳专门做数字交通,为了做这个事而进行大规模的训练。其中,有一些开源的东西,包括建立开源生态,还有一些势能的技术,视频编码标准是一块重要的势能技术。现在,也在做一些基于应用标准建设的工作。

  第一款数字视网膜芯片已经在路上,这个芯片很小,但却把我刚才说的三个本质特征,八个功能全都包含在里面。将来,这种芯片可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用。

  (根据高文院士最近的公开演讲内容整理而成,未经本人确认。)

  相关链接

  生物视觉系统经过几亿年才进化得比较合理,而人工视觉系统才进化了几十年,通过学习生物视觉系统可以帮助人工视觉系统达到新的高地。为此,我们需要按照类脑方式构建新的智能视觉计算系统。

  高文

关注读览天下微信, 100万篇深度好文, 等你来看……