视频寻踪

来源:21世纪商业评论
关键字:视频,监控录像,侦查
发布时间:2016-10-18 10:14

　　利用深度学习技术，遍布的摄像头可追踪到公民的所有行迹，城市会更安全吗？

　　2016年8月，历时28年的甘肃白银连环杀人案告破，利用指纹和DNA深入侦查，警方最终确定犯罪嫌疑人高承勇，在白银市将其抓获，大快人心。

　　1988年至2002年，共犯下11宗强奸杀人案，过去20多年，为何迟迟未破案？公众讨论反复提及的一大原因，即是缺乏监控录像。从1990年代中期开始，视频监控应用才在大城市开始起步，2002年前的小城白银，未有完善的视频监控系统，影响了案件的侦破进展。

　　试想一下，如果20多年前即拥有现在的视频侦查技术，或许能阻止白银悲剧的发生，而站在现在的技术起点上，视频监控技术正处于一个质变的前夜，未来发展充满想象、机会以及潜藏的威胁。

　　2008年有部好莱坞电影《鹰眼》，描述大数据技术运用于视频监控，可从海量影像中捕捉既定目标，而个人在遍布的摄像头前无从遁形，已不再是科幻故事。如今，以深度学习技术为代表的人工智能正开始渗透至视频监控领域，可以更快、更准确地识别、跟踪、检索海量视频中的信息内容，多家安防厂商正投入大量资金，不遗余力研发“视频智能化”相关的技术和产品，部分产品在2017年即可实现商业化应用。

　　可检索、可追溯、可自动分析、可深度挖掘的视频智能化，正成为现实，以后，只要一张身份证，即可快速检索其在摄像头留存的影像，分析其行动轨迹。无疑，这将创造巨大的社会价值和商业价值，但是，每个人一定更加安全吗？

　　第四类侦查

　　2004年，中国政府提出建设“平安城市”，在这一综合性的管理系统中，视频监控扮演着关键的角色，公共场所的摄像头数量开始迅速增长。

　　东方网力总经理赵永军告诉《二十一世纪商业评论》（下称《21CBR》）记者，视频监控管理系统可分三大部分：第一部分为摄像头，在前段采集信息，记录图像、视频，实现内容可视化；第二部分是联网，借助运营商网络传输回后台各级指挥中心；第三部分为系统管理平台，其存储、分析传输回来的视频信息。

　　其中，内容可视化、视频联网，只是基本的要求，市政管理部门真正关心的是视频内容及其延伸价值。而核心的信息内容，不外乎是人、车、物，如何将这些关键信息提炼出来并进行分析，成为迫切需求。

　　“公安等部门要提取视频中成千上万的人、车、物等数据信息，大数据、云计算、云储存等新技术开始广泛应用于视频监控领域。”赵永军解释说，将视频应用与使用者的具体业务结合起来，出现了视频监控管理平台（View Management System，简称VMS）的概念。

　　东方网力成立于2000年，一直专注VMS的开发与研究，在VMS全球市场占有率中排名第三，现在市值约为200亿元人民币，以其2015年的“视云天下”产品为例，由视云联网、视云图侦、视云实战、视云大数据等产品线构成，前端联网各种各样的摄象头后，即可形成一个统一的大规模资源管理系统。

　　对于视频信息内容的管理、检索和分析，公安部门的需求尤其旺盛，并形成了一整套的案件侦破方式，比如，针对攀爬入室盗窃的案件，基于视频分析可大大提升侦破的效率。2009年后，公安部明确提出，图侦（视频图像侦查）成为继技侦、刑侦、网侦之后的第四大侦查技术。

　　遍布的摄像头，降低了犯罪率，提高了破案率。以福建莆田为例，公开的数据披露，2011年以来，莆田市公安机关全面推进视频监控系统建设，截至2014年底，共建联网视频探头30337个，主要城区视频覆盖率均达90%以上。同期，110报警服务平台中接报的“两抢”案件，从2011年的905起降至2014年的323起，降幅达64.31%；莆田市利用视频破获各类案件4955起，“由像到人”的视频破案成其公安机关最主要的破案手段之一。

　　政府部门高度重视视频监控，但是，囿于传统分析技术的局限，大量工作只能依赖人工进行，也使其在案件追踪过程中吃尽苦头。

　　以2012年震惊全国的周克华案件为例，为追踪他的逃亡行踪，公安部门曾安排近1400人观看可能有其行藏的相关视频。彼时，视频监控技术尚未成熟，关键信息的提取和分析只能采用人工观看、排查的方式。而相关视频总量大体相当于500万部高清电影的体量，1000多人观看了整整一个多月，而挖掘出来的线索却非常有限。

　　人工处理效率较低，尤其人眼睛长时间盯着屏幕，大约每隔15-16分钟即会视觉疲劳，所追踪的线索，可能在眼睛一睁一闭之间即错过。如何处理大量视频数据，将视频的元素提炼出来，进行结构化处理，成为其亟待解决的痛点。

　　当前针对海量视频信息内容的筛选，一种解决方案是“视频摘要”技术（即视频浓缩）。商汤科技主任研发工程师闫俊杰博士告诉《21CBR》记者，这种技术主要依赖背景建模和图片拼接两项技术完成，其原理是先通过对视频的分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，以某种方式进行组合。

　　视频摘要技术分为动态和静态两类。前者指的是，在不动的场景下，将不同时间内出现的运动物体提取出来，叠加在同一个场景中，提高寻找目标的速度。比如，一段视频中，一位穿红色衣服的女性是关注对象，可用鼠标锁定此人，双击即能切换到其现身的原始画面；后者则是进行镜头探测、关键帧提取、场景聚类等一系列操作，从原始视频中剪取生成的一系列静止图像的集合，最终生成具有代表性的关键帧序列或缩略视频。

　　这种摘要技术的出现，极大提高了工作效率，比如，一段24小时不间断的视频内容，可以此进行关键信息浓缩，处理成数小时甚至30分钟，便于快速观看。

　　闫俊杰告诉《21CBR》记者，虽然视频摘要技术提高了处理速度，但是由于背景建模不是很稳定，比如在风吹动树这种比较明显的动态场景下，或是比较拥挤的场景下对于拥挤物体的区分，背景建模容易失效。另外，视频摘要一般需要离线处理，视频素材的存储空间需求更大，也缺乏实时性，而且大量工作仍然要依靠人工处理。

　　人会疲劳，会犯错，但是机器不会，那么，有没有更加智能化的技术呢？

　　解构视频

　　更彻底的视频分析解决方案，即使以人工智能的方式，实现视频结构化。

　　“视频结构化是将传统的基于人力查看的视频监控系统，提升成基于智能搜索、主动分析、综合服务的视频大数据智能平台的关键。”商汤科技CEO徐立告诉《21CBR》记者，结构化具有三个重要意义：对视频内容提取关键信息进行存储，基于语义进行自动检索，未来更高层级的搜索以及大数据分析和挖掘。

　　具体来说，即是针对感兴趣的目标、物体（包括人、车、非机动车、路牌等），可由人工大脑自动逐一检测出来，进行跟踪，厘清其属性。

　　比如，具体到一个人，分析包含年龄、性别、衣着、手提物品等各式各样类型的属性；车可以包含车牌、车型、颜色等一系列的属性。确定属性后，使用者即可进行功能性搜索，比如以图搜图或者文字搜索，在海量的视频信息中找到具体目标。

　　假设这样一个场景，110接到一个电话报警，“在一个十字街口看到有一辆蓝色的凌志车，撞上了一辆黑色的宝马”，若在传统场景，具体哪个十字街口说不清，要在海量数据中搜索这样一段视频非常困难。若进行结构化后，即可利用关联字——蓝色的凌志、黑色的宝马，以及十字路口，将相关的视频内容检索出来。

　　再者，无论存储在云端或是本地计算机，传统的视频存储量一直是一个问题。尤其2013年，中国开始实行智慧城市建设，摄像头越来越高清，视频的数据体量越来越大，存储成为重要瓶颈。而若白银案这种连续多年的案件，长时段视频存储对于案件侦破至关重要。

　　而一旦形成视频的结构化，即可只存储视频中的有效内容，比如集中在人、车、物，这样大大便利于信息的检索。而且，同一段视频内容，各不同部门可各自所需，例如交警部门感兴趣的，主要是视频中的车和非机动车等信息数据。

　　如此一来，可大量去除没有意义的视频内容，设定关键信息的属性，进行高度压缩的存储，“有可能120G的视频，一些部门需要的信息，可以压缩到几K，”徐立说，这样关键信息将得到永久性的保存。比如白银案，当时若能实现监控且储存结构化信息，那么，一检索作案时段犯罪现场的人员往来关键信息，在多个场合同时出现的犯罪嫌疑人很可能会被锁定，案件侦破可能相对容易很多。

　　问题是，如何进行视频结构化呢？

　　闫俊杰解释说，对视频进行结构化数据处理的技术难点在于，一是如何解决视频处理量比较大的问题；二是属性识别的提升、准确率的提升，以及如何覆盖更多的场景（比如晴天、阴天）。解决方案涉及时下流行的一个热词，深度学习技术。

　　长期以来，计算机遭遇这样的尴尬，数量计算这种人类看似困难的事处理起来非常简单，而如人脸识别这样看似容易的事却非常费劲，因为计算机不同于人脑，比如在识别图片时，其看到的只能是数字，它必须能捕捉这些数字，再识别图片究竟是什么，这牵扯非常复杂的算法。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，可模仿人脑的机制来解释数据，例如图像、声音和文本。

　　深度学习的技术渊源可追溯至上世纪80年代，只是囿于当时的数据量和计算能力，一直没有得到重视，直到21世纪后，重新为学术界所关注。微软人工智能首席科学家邓力（Li Deng）曾在2009-2010年间与其合作者开发了一套算法，就将语音识别的准确率提高到一个新量级，“当时引爆了学术界，深度学习马上成为大热点，”徐立说，“大量研究开始朝着深度学习方向迅猛推进，技术应用不断拓展，计算准确率大幅度提升。”

　　近年来，深度学习广泛应用于三大领域：语音识别、自然语言处理（比如“微软小冰”）以及计算机视觉（比如人脸识别）。

　　AlphaGo的底层技术同样是深度学习，这已成为计算机领域的显学。

　　徐立之所以选择创业，一个诱因是，当年在香港中文大学从事图像处理研究时，香港警方主动上门，他们有一些逃逸车辆视频，车子开太快，识别不清，要求用技术方式复原车辆的信息，警方对成果非常满意，付钱买单了，“当时我们开始意识到，计算机视觉的学术研究已经能够转换为工业应用了。”徐立说。

　　计算机视觉大体可分为三个层次：图像处理、模式识别和图像理解。而视频是连续的图像，比静态图像中的物体检测复杂度更高。据闫俊杰介绍，基于深度学习的视频识别技术是以图像识别作为基础，就是在图像识别检测、比对、分类的基础上，结合了比如选帧、多帧融合、时序预测、质量评估等多种需要和视频融合的方式。

　　“计算机视觉用于视频结构化，一个技术成熟的标志在于可被拿出来进行竞赛。”徐立说。他指的是ImageNet竞赛，这是人工智能领域的权威竞技场。2015年，ImageNet竞赛新增一项视频物体检测的任务。

　　在该项新任务的比拼中，赛事主办方选择了30个类别的物体，商汤科技联合香港中文大学多媒体实验室组成的团队，在28个类别中准确率最高，第二名只赢了两个；商汤科技整体62%的准确率，也高于第二名51%的准确率，最终以11%的压倒性优势领先并夺冠。值得注意的是，国内最大的监控产品供应商海康威视也组队参与了ImageNet竞赛。

　　东方网力一名技术工程师向《21CBR》记者解释，传统的视频分析方法依赖于人工构建的特征，而深度学习技术则是由算法从数据中去学习特征，特征的鲁棒性（指控制系统在一定的参数摄动下，维持其它某些性能的特性）、泛化能力优于传统方法。基于GPU的深度学习，在实际应用中，其并发处理量和处理速度等性能上，都有明显优势。

　　赵永军评价，这些学术成果对于视频应用，是一种技术性的“突破”，“深度学习技术引入到了视频的智能化应用，实际上可以理解为让计算机有了思维，让计算机有了思想。”

　　需求强劲

　　作为一家技术公司，商汤科技在上游拥有技术资源，需要拓展应用场景，而东方网力在行业内有非常强的客户资源，寻找核心算法能力。“东方网力在视频连接、平台技术等方面有技术储备，我们的核心能力是在海量视频中去捕捉需要的信息。”徐立解释说。两家公司一拍即合，2015年，双方成立合资公司。

　　视频结构化的第一目标要素是人，而合作已经有实质性的成果。

　　赵永军向《21CBR》记者举例，东方网力曾与某省公安厅在火车站进行人脸对比的数据测试，选择13路视频监控，即13个场景，在车站内正常流动的环境组织内，每天会组织30个人，都分别在这13个场景下行走一遍，这样要找的目标就是30×13=390人次，在无意识、不配合的情况下，比对后台的人口数据库，基本每天能找到当中的280~330人。

　　除了准确率，误报率也是一个重要的指标，一套系统如果总是报错的话，就失去了使用价值。徐立表示，人脸识别技术在很长的范围时间内，之所以没能在公安部门等运用起来，就是早期误报率太大，对工作反而形成干扰，“要在公安部门中使用人脸识别技术，一方面要求真正抓取技术准确率要提高，另一个是误报率要很小才行。”据赵永军介绍，上述的火车站测试，误报的数量基本在10个以下，这意味着技术已经有实用价值。

　　目前，在对象处于静态并主动配合下，人脸识别技术准确率高达95%以上，在实际应用的监控视频中，目标人物处于无意识、非主动的状态，所提取出来的人脸往往难以识别，某些特别复杂的场景下，准确率可能只有40%-50%，这是视频技术应用的一大瓶颈。不过，从动态视频中进行人脸识别的技术难题也已实现突破。

　　据徐立介绍，市面上流行两种类型摄像机设备，枪机高清摄像机，可提供相当于4K的画面；另外一种是球机，可视作是长焦镜头。在视频提取时，之前往往遇到这样的困境，枪机摄像机200米开外的事物往往是看不清楚的，如果用球机变焦，又只能看到局部，无法看到全部。那么，全部场景提取和局部清晰变焦如何才能兼得呢？

　　利用人工智能技术，就可实现“枪球联动”，就是用枪机去提取所有的场景，其中检测出来感兴趣的关键信息，借助算法控制，用球机一个个进行变焦扫描，进行车型检测、人脸识别对比。

　　2016年4月，商汤科技宣布并购新舟锐视，后者创立于2011年，是一家从事制作硬件的科技公司，核心产品是智能摄像头长焦联盟机，并成立“商周锐视”，这家公司融合了商汤在软件和算法方面的领先优势，以及新舟锐视在硬件及市场拓展方面的成熟经验，力求构建拥有计算机视觉和深度学习原创技术的领先智能安防平台，并已经推出了“多目标智能跟踪一体机监控平台”。不仅是人脸识别，实现数据结构化之后，可以实现更多的智能应用。

　　以传统的车辆智能监测记录系统（俗称“卡口系统”）为例，它是视频监控中的一种核心应用，主要面向交通管理，现有系统中，通过以车牌为核心，用于提取车牌信息。实际上，对于视频内容而言，大量有效信息卡口系统并没有提取出来，比如车的类别、车型大小、车身颜色，但是，借助数据结构化就能有效提取所有相关信息，比如，通过卡口的车，可以具体到现代汽车品牌、伊兰特系列2007年款。

　　查处“套牌”是交通部门的一项常规工作，传统的套牌分析方式，是通过视频监控，利用时间、空间分析两个车牌不可能同时出现在不同的地点，才判定它是套牌，非常复杂，现在则不同，“汽车的各种特征都成为数据，一个车牌所对应的汽车特征都有数据，针对这个车的不同特征提取，以判断是否数据套牌，这样会简化很多。”赵永军说。

　　在侦破案件时，这种车辆信息的作用更大。因为很多案件都是团体作案，几辆车协同进行，那么，如何通过一辆车去判断另一辆车，以确定两者之间存在协同关系嫌疑？这些都可以通过分析车辆的运行轨迹、其常落脚点以及时间等数据，得出正确的结论。甚至在一个小区内，哪些车辆经常出现、哪些比较陌生、哪些是第一次出现，均可以分析出来。

　　在视频监控领域，商汤科技形成了以深度学习为核心技术的三大技术产品形态，除了人脸布控系统和视频结构化系统，还开发了一套智能人群行为分析系统（SenseCrowd），该系统适用于大量人群的行为分析和管理，通过统计场景内的人数、跟踪人群的移动速度和方向、异常行为分析等，进行实时人群监测，并对人群过密、异常聚集、滞留、逆行、奔跑等多种异常状态，进行智能预警。利用这种系统，2015年元旦上海的踩踏事故，就有可能避免。

　　赵永军表示，视频监控行业现对深度学习的应用需求非常强劲，“深度学习技术是近些年刚刚引入的技术，在行业内，对深度学习反应程度之热烈，大大地超出了我们意料，”赵永军说，东方网力现在各个项目中，向潜在客户进行演示和人脸测试的高端服务器，就有数百台之多。

　　徐立告诉《21CBR》记者，深度学习技术在视频的大规模商业化才刚刚开始，行业内一般是第一年看演示、做预算，第二年进行项目实施，现在是未实施先火，是因为所有人都非常看好该技术在行业内的应用，产生大量新的需求，“今年，交通、安防、公安、楼宇安全等行业都提出了很多需求，有很多人看过项目演示，预计明年的话，各行业的需求会更多，最终形成一个较大市场的规模。”

　　更重要的是，传统的分析方法在数据达到一个量级后，性能提升曲线会变得非常平缓；而深度学习的数据驱动式训练模式，将突破这个瓶颈，在更大量级的训练数据上，仍能保持非常高的性能提升幅度。这意味着，随着各垂直领域拥有的数据量越来越多，未来，算法所展现的结果将越来越准确。

　　监控升级

　　视频监控系统以摄像头为前端，摄像头是固定的，也可以是移动的。

　　安防机器人便可视作一种“移动的摄像头”，是视频监控系统的延伸。东方网力就正在拓展安防机器人领域，参股了美国的安防机器人公司Knightscope。

　　Knightscope成立于2013年4月，创始团队来自于世界知名机器人公司，具有超过10年多年机器人研发、生产的丰富经验，该公司通过融合音视频、室外定位、避障等传感器技术、物联网技术、大数据技术以及机器人技术，开发可在公共场所采集数据和执行任务的安全警卫机器人，以达到减少和预防犯罪的目的。目前，Knightscope已研发出两款机器人K5和K10，并为客户提供机器人安保服务工作。

　　赵永军第一次见到Knightscope的机器人，便留下了深刻的印象。“1.5米高，300磅重，俨然大汉的模样，在面前停下来，头部360度高清摄像头对我扫描了一边，还有激光扫描进行身份识别，传送给后台指挥中心。”

　　当时，赵永军是由美国总经理带领参观的，一行四人，第二天，机器人就向指挥中心发了评估报告，记录了四人的来访时间，其中两人的身份由于后台系统有存储而被识别，赵永军成为最受怀疑的对象，因为他总在机器人身边转来转去，研究他们；而当机器人的电量低到一定程度的时候，会自动回到充电处续能。

　　赵永军告诉《21CBR》记者，现在美国硅谷一些社区中，已使用安防机器人进行巡逻，“（机器人）起到了威慑作用，同时，在巡逻过程中也进行视频内容的采集，传输给指挥中心以判断是否为异常情况，如果有警情的话，这就是一个移动警报。”东方网力准备在2017年，将这种安防机器人引入中国。

　　美剧《疑犯追踪》曾虚构了这样的场景：“9.11”事件后，为了防止悲剧再次发生，在政府的支持下研究出一个人工智能系统，它连接了国内所有摄像头，通过抓取所有人的行为进行分析、推荐，包括其过去的所有数据，进行分析，系统变得比人脑还深不可测，能够准确地预测犯罪嫌疑人的下一步动作，以最快的速度调动一切安全部门、警察局资源，在犯罪发生前赶到现场，阻止悲剧发生。

　　摄像头一直存在，只是过往没有能力将其整合起来，但是，借助人工智能，这些离散的视频将很快可以将一个人的轨迹勾勒出来，无论是否自愿，一个现代人恐怕已真的无所遁形。

　　对于常年浸润在安保行业的赵永军而言，这一切并非完全不可能，很多技术正逐渐成为了现实，“未来的终极目标，一定可以做到这样的程度，经过授权的执法人员，他可以知道具体某个人每时每刻在哪里，这就是一个时间的问题。”徐立也表示，视频智能化已经到了一个相对较成熟的阶段，“不仅是安防领域，视频的数据结构化接下来会大量运用各行业，数据结构化之后，还会催生更多的是智能应用。”

　　可以预见，这种技术的进步将大大推动监控力量的扩张。现代社会，犯罪、恐怖袭击等，通过媒体的放大，已在加剧民众的恐惧，有人形容为，“一种普遍的不安全感被生产出来，这导向一种新的消费，即对保护的消费”，相应的，全球监控设备市场在不断膨胀。

　　据统计，1990年代初，英国CCTV监控系统的市场规模约在在1亿英镑左右，到1990年代末达到3.61亿英镑左右，到2002年以后，年均增长率达到14-18%。根据研究机构IMS Research的数据，2014年全球视频监控设备市场总额超过140亿美元，年平均增长率超过30%。可以说，安防监控已成为一个“繁荣的产业”。只要有恐惧，就会有消费，这成为一笔稳赚不赔的买卖。

　　中国同样如此，以G20峰会举办地杭州为例，公开数据显示，其视频监控规模是全国“平安城市”中最大的单域联网项目之一，至少达到6万路的规模。如今，不光在公共安全领域，百度、奇虎360等公司，还正在将摄像头引入到私人家庭领域，且均投入大量资源用于深度学习技术的研究。

　　可以预见，借助于视频智能化技术的发展，诸如白银案这样犯罪事件，未来将会更便利地侦破甚至有效预防，同时，也有必要忧虑，语音识别技术的进步，助推了美国的“棱镜”窃听计划，未来，会不会出现视频版的棱镜计划？

　　本刊记者谢金萍陈晓平

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容