破解多媒体大数据分析难点
- 来源:中国信息化周报 smarty:if $article.tag?>
- 关键字:智慧城市,大数据,AVS2,CDVS技术 smarty:/if?>
- 发布时间:2016-08-04 09:45
智慧城市建设涉及多个领域、不同层面的数据资源获取、处理和分析。这些数据应用于医疗卫生,能够实现精准医疗;数据应用于教育行业,可以实施个性化教学;而城市监控数据为城市管理者所用,能够提升管理效率、改善民生服务。
目前,以北京为例,覆盖全城、多点布局的摄像头数量达2000万之多,而这些摄像头捕捉到的数据信息往往是在“睡大觉”。一般1~2个星期、最多1~2个月为一个周期,过往信息就会被覆盖掉。
如何从这些信息中抓取有用数据、扔掉无用数据,是我们当前面临的难题。这类音视频多媒体数据要真正实现有效应用,面临三大挑战,即“存不下”、“看不清”、“找不到”。
优化编码技术研究
这三大挑战背后对应的技术问题是指我们的编码算法技术还有提升的潜力和空间。
一方面,随着摄像头数量不断增加,获取的信息量不断增长,可能导致“存不下”这一问题;另一方面,计算机识别图像与我们人眼看东西不同,需要较高的清晰度。目前,我们城市摄像头的数量基本已达到5米或10米一个,但人脸识别率还是较低,就存在“看不清”的问题。此外,摄像头物理参数的不同也会导致出现这一现象:我们肉眼看某人从A点走到B点,A点摄像头捕捉到这个人,但到了B点可能就“找不到”了,这就存在跨摄像头搜索的问题。
针对这三个问题,我们需要三种不同的技术来应对它。
针对“存不下”问题,我们需要从更新编码技术这个思路去寻找破解之道。高效视频编码是应对这一问题的直接技术手段。因为数字视频其实是一个数字图像序列,数字图像表现的是数字信号,而数字信号我们可以对其进行处理。经过分析,我们发现数字图像序列中有三类信息冗余,一是时间冗余,二是空间冗余,三是感知冗余,当然也有知识冗余等其他冗余。如果我们能够把这些冗余挤掉,就能更有效地压缩数字视频。
针对不同类别的冗余,我们必须采用不同的方法。理论上,我们通过矩阵运算或通过矩阵分析可以找到视频编码的上界即最大压缩程度。例如,针对2000×2000像素这样尺寸的图像,理论上我们能压缩2000倍,即压缩到2000:1,但实际上我们能做到的是600:1,中间还有很大空间,需要采用各种不同技术来突破。
编码技术变革
1993年第一代编码技术通过优化能把高清视频压缩到了1/75,2003年第二代编码技术把编码性能提高了一倍,2013年有了第三代编码技术,压缩能力又提升了一倍。以此类推,2023年将产生第四代编码技术,其压缩能力将达到1/600。我们把这种规律视为编码领域的摩尔定律,十年性能翻一番。
其实,从第一代到第三代编码技术,都是遵循最基本的编码框架结构,即从视频信号进来,切成块变换处理,再进行滤波运能估计。但基于这一架构,编码性能却能十年翻一番。如何实现?主要是采用多种数学工具,如预测编码、算术编码等,或者多种工具混合利用使得编码效率不断提升。通过观察分析,我们看到,在三代编码技术不断演变过程中,真正的变化是在预测与运动估计这一项上,每一代都不一样。这也会给我们提供启发,为寻找更高的编码效率,预测与运动应该是我们关注的重点。那么,为何预测可以得到更高的编码效率?因为预测主要解决的是空域冗余,随着时间推移,它一帧一帧往前处理。我们知道图像处理中很多东西不变化,这些不变化有效利用起来,就能获得较高的编码效率。
以监控视频为例,一般而言,在会议活动中,演讲人只有身体会偶尔摇动;在自然环境中,整片森林除了每天光照变化、叶子生长变化,其他都基本不变。因此,如果针对这些不变的因素实现建模,就能获得很高的编码效率。
因此,针对视频监控应用,我们提出了背景建模技术,通过背景建波计算出背景模型,之后做预测时,用这套模型去做计算效率就会很高。在国际三个主流编码技术团队中,中国技术团队在这一领域作出了较大贡献,并已有了实际应用。
AVS2有效提升编码效率
从性能上来看,以数字视频广播应用为例,中国超高清标准AVS2与目前H.265标准性能相当,而以监控视频应用为例,AVS2标准相比H.265标准,性能为‐41.77%,即码率节省了41.77,性能提升了一倍。
对于监控视频而言,AVS2已经迈入新时代。
2015年1月,广电总局广播电视、计量检测中心针对AVS2标准和H.265标准专门做了一个对比实验,并得出这样的结论:AVS做超高清视频很有优势。对比视频编码标准HEVC,图像质量下降的平均值是:AVS2为2.9%,HEVC为3%。一般而言,下降的值越低越好,这也表明了AVS2的优势。
目前,已经有一些主流企业开始布局,准备用AVS2进军全球市场。而AVS2能够有效提高编码效率和精度,能够应对我们提到的第一个挑战——“存不下”。
针对“看不清”即识别不准这一问题,传统的做法是产生编码和识别编码是完全平行的两套,彼此不通气。通过背景建模技术,可以在编码时把前景测出来,这样的好处是可以进行分析、识别、提取。具体如何实现?以监控视频码流为例,我们可以理解为它是由两个码流构成的,一是背景码流,二是前景码流。测出前景后,我们可以处理、识别,并且跟踪分析我们关注的对象。基于这个想法,AVS2也就支持感兴趣区域(RCH),就是语法里面对前景手段你可以对其进行描述,这种描述可以采用特殊参数的编码,背景一次性接过去就可以。基于这样的构建我们可以很好地识别编码模型,从感兴趣的区域可以得到对象,根据对象之间的关联,以及它们失去关系时构建的时间,我们可以在编码的同时做运动分析、目标检测、对象行为分析等。
传统的方式下,识别时我们需要在视频流上找,但是通过背景建模技术,任务就变得简单很多。我们只需要知道背景是什么,就很容易把前景表述出来。AVS2国外版命名为HE1857,基于这一标准,可以对感兴趣的区域提取对于对象的表达,对动作和行为检测等。
针对跨摄像头检索“找不到”的问题,我们采用了CDVS(即紧缩描述式)技术。我们要想办法达成这些目标:描述能力强、紧凑,检索较快,特征规范化。这里面涉及到计算机视觉技术、机器学习技术等,最核心的就是兴趣点提取和表述,一开始我们用的是(SIFT)特征,也是近期最好用的一个特征。
但(SIFT)特征在具体使用中有很多问题,后来我们对其做了改进,改进之后的效果比较好,所以我们把这一特征又分成局部和全局。改进的倍数CDVS比SIFT好三倍,特征大小好一百倍。针对一千万幅图像库进行搜索,采用CDVS只需要500毫秒就能完成搜索,就是说如果我们要在一千万张图片中去找一张图片,半秒钟就能解决问题,搜索速度非常快,这只是在英特尔CPU上面就可以做到的。
总的来说,在智慧城市建设过程中,如果你要考虑多媒体大数据分析的时候,有三个比较大的挑战。
第一个压缩问题我们可以通过AVS2去应对,当然你可以有其他的办法。第二个模式识别问题可以通过支持感兴趣区域的AVS2、面向监控的AVS2来解决。第三个跨摄像头搜索、视频搜索问题,其实可以用CDVS这一标准去解决,当然也有其他更好的技术来解决。在智慧城市建设方面,尽管我们现在装了很多摄像头,但离具体的应用还是有一段距离,所以需要理论、系统、技术等多领域专家共同协同,才会有一个较好的结果。
(本文根据高文院士在第八届中国云计算大会上的演讲整理而成,未经本人确认。)
■中国工程院院士 高文