大数据时代的数字监控

  通过国外同行曝出来的信息来看,NSA有一套针对个人监控的流程。棱镜系统经过初步筛选会给出一些目标人物,NSA分析师经过分析后针对有“问题”的对象向审查主管提交一份建立新监控目标的请求,面对这样一份事关国家“安危”的报告,试问身怀正义感的主管们又有神马理由不批准呢?得到批准后,棱镜系统会针对目标的电邮、即时消息、视频、照片、存储数据、语音聊天、文件传输、视频会议、登录时间和社交网络资料的细节等等数据,进行细致的分析排查,并给每一个目标设定一个档案编号,每一个监控项目下都有详细的监控日志。可以说是,棱镜之下无所遁形。别以为建一个档案就完事,既然有了这样的“有罪认定”,后面肯定有更绝的。比如棱镜系统会将档案中所有行为和自己数据库中已经有的11.7675万活跃监控目标进行交叉比对,到了这一步,恭喜你,你已经彻底被“老大哥”盯上了,而且是戴着有色眼镜给盯住。

  好吧,头脑敏捷的人应该能发现问题了,在这个社交网络和暴露欲充斥的年代,要想弄清楚一个人在干什么其实不算难,正如你在微博上可以悄悄关注某人,但你没法弄清楚微博上所有人在干嘛,除非你是微博本身……。

  实际情况是自“9·11”事件之后,NSA就开始从电信公司那里获取用户信息,其中包括电话拨叫纪录、移动设备的地址信息等等。NSA从所有搜集的数据中进行挖据,这个数据库被称作MARINA。2006年AT&T公司前雇员马克·雷恩揭露了该公司帮助NSA在光纤骨干网当中安装窃听装置的信息,这种装置被称为是“情报流量分析器”。这种仪器能够在每秒钟内对上千兆数据进行分类和排序处理。NSA在美国本土和全球其他国家的许多网络环境当中都使用这种监听设备。

  不过思科的数据显示,2012年全球互联网每天的流量达到1.1EB,NSA想要直接捕获并存储这样大规模的数据是不可能的。况且还有SSL加密技术,破解SSL加密连接需要花费许多计算成本,无法应用在全网流量上。所以就算NSA能够窃听网络传输,大概也没办法做到实时监控。不过从斯诺登披露给媒体的内容上看,微软实际上从2007年起就在向NSA提供数据。棱镜系统实质上并没有从用户端下手,而是直接从内容提供商的服务器上直接获取数据和用户信息—绕过SSL加密认证,直接调用云端存储的数据。尽管对于棱镜是否如此直接还有些争议,但是国外媒体通过可靠线人得到的信息显示,棱镜更像是DropBox那样的模式,好像有一台机器在云端同步一样。互联网公司们可以用这种方式把数据提交给NSA,即与服务器信息进行同步。内容就是用户信息、电邮内容和分享的文档等等。棱镜唯一要解决的,只是如何处理这些海量数据,不管是存储、索引还是分析数据,都需要更先进的技术。

  仅从技术角度来说,仅仅在五年之前,要想进行如此大规模的数据分析简直是不可能完成的任务。但是得益于互联网巨头门在大数据分析上的一系列新技术的突破,让拥有相对充分的人力和财力的NSA开始在数据分析上游刃有余。

  数据分析专家指出:“这些新技术为政府部门节省了巨额开支,同时还极大地提高了政府部门分析此类数据的能力。虽然需要配套的数据中心支持才能完成数据分析任务,但这些技术的成本要远比几年前低得多。”不幸的是,NSA斥资十二亿美元在犹他州打造大型数据中心将于今年秋季投入使用。虽然目前尚不明确到底NSA在覆盖全美的数据中心使用的是何种计算技术。但总体来说,这些技术被分为以下三大类型。

  数据库系统

  好吧,在大学学过计算机这门没啥意思课程的同学应该都听过SQL的大名,它是一种传统数据库的编程语言,通俗来说就是把数据存储在由行与列组成的表格中的方式。然而,这种老式方法当遇到存储包括电子邮件或文本信息等字符串时,传统数据库就暴露了能力有限的弊端。而且它们还无法处理图片或视频。2009年年底开始出现的新型数据库NoSQL(NotOnlySQL,不仅仅是SQL)则突破了传统数据库的能力限制,可以允许数据分析专家针对所有类型的数据创建查询要求。这些新型数据库包括MongoDB、Cassandra和SimpleDB等。NoSQL数据库在分析超大型数据组方面体现出了非凡的能力。比如以美国保险数据为例,得益于米国人民超高的保险意识,这个数据库的规模相当庞大,而数据库的供应商则需要聘请N多分析师在数十亿客户资料数据不断运行各种不同的数据模式和分析方法,从中发现虚假保险索赔记录。如果使用IBM提供的传统DB2数据库需要通宵达旦地工作半天才能完成初步筛选工作。此后,分析师还得投入大量时间研究得出数据结果,并提出新的信息查询要求,建立新的数据模型进行交叉比对,而这恐怕还得再熬几个晚上。分析师每次都需要花费几周时间才能这项工作。而在更换成NoSQL数据库后,分析师仅用30秒就能完成相同类型要求的运行。

  技术更新带来的效率是不言而喻的,甚至可以将过去滞后的数据分析进化到实时监控的地步。对于棱镜这样庞大的数据监控项目而言,一个好的数据库无疑是起保持效率的关键所在,试问要是通过数据分析找到了一个恐怖分子,可这家伙偏偏已经实施了恐怖活动,这样的“活体监控”又有什么意义呢?

  人工智能

  别被这个俗烂的标题吓到,就目前技术而言,还达不到所谓的人工智能,电脑还只能模拟简单而有逻辑的分析方式,不过这已经够了。想想在整个数据分析过程中最慢的环节是什么?没错,是分析师。即便是经验再丰富的分析师,也是人,也会有受到感情、压力、身体的影响,进而影响分析的质量。让电脑替代人脑似乎是解决这个问题的唯一答案。

  来看看分析师是怎样工作的吧,首先他得对数据有充分的了解,然后根据经验创建假设性问题,进而针对数据库提出复杂的问题,建立数据模型并通过不同的分析方法得出结论。对于电脑来说,模拟这个过程其实不算太难,因为这个过程的核心是思考方式,而这种思考方式电脑可以克隆到分毫不差。在周围环境数据非常完整的情况下,分析这种以语言为核心的技术在电脑来说,完全是小菜一碟,即便是根据上下文猜出隐藏词汇的意义也没啥难度。

  只要将这个分析程序植入多个数据库之中,电脑就会给你提供分析结果,通过使用自然语言处理技术,它还可以分辨出“炸弹”这个词到底是百老汇舞台剧的剧名还是恐怖分子将会使用的武器。说穿了,所谓的人工智能就是电脑模拟人脑的“认知分析”,它通过模拟分析师对数据库不断提出问题,进而数据库不断进行“自我修正”,从而得出结论。而且得益于几乎无限制的电脑数据库容量,机器分析的结论甚至比人工的更加准确。比如,在新信息出现时,电脑还可以使用实时自动更新算法,从而修改结论。这些新信息包括天气、时间等普通人会忽略掉的小因素。

  如果棱镜真如奥巴马大叔所言,是针对恐怖袭击的监控,那么类似这样的人工智能方式应该是一个好的选择,因为目的明确、目标单一,很容易形成一种分析方式,特别是美帝手上应该有许多这类现成的案例供电脑学习。

  分布式系统基础架构

  又是一个新的名词,咱悔过,不过咱可不是要掉书包,这东西其实很好理解,咱们先来看一组数据。据统计,2012年美国家庭月平均数据使用量为52GB,其中9.8%的上行数据来自网页浏览、4.8%来自Skype、2.7%来自YouTube、1.6%来自Facebook、1.5%来自苹果相片流;同年美国手机的月平均数据使用量为317MB,其中15.4%的上行数据来自Facebook、13.6%来自网页浏览、7.9%来自YouTube、2.2%来自谷歌GTalk、1.6%来自Skype、1.5%来自雅虎邮件。面对这种规模的数据,即便是以玩数据分析起家的谷歌而言,想要实时分析个底朝天也是不现实的,即便NSA再有钱,还得考虑效率问题。比如复杂的数据分析肯定得有一个更加复杂的分析程序,而直到前不久,还只有造价昂贵的硬件设备比如超大型计算机才能够运行这类特别复杂的程序。而Hadoop分布式系统基础架构的出现,则在很大程度上解决了这个问题,因为它已经能够让从数据库提取信息的过程进行分布实施,不同的数据分析任务被分配给大量造价低廉的服务器进行分析,每个服务器只负责分析其中的一部分内容,然后这些内容又会在任务结束后被汇总在一起。相当于多台机器并行工作,真是省钱又省力。

  这种将复杂的问题分配给大量造价低廉的计算机处理的能力有助于人们获得问题的及时反馈。目前美国汽车信息网站Edmunds.com就在使用这一技术,这个网站实时监控全美国的汽车销售情况,汽车经销商可以通过它们预测一辆车在自己停车场里停留的平均时间。这种预测能够最大限度地缩短一辆车售出的时长。对于汽车经销商来说,让汽车和金钱之间不断转换可是衡量销售业绩最为重要的指标。本来NSA就够有钱的了,现在还有了这样方便快捷又省钱的技术,这事真不能细想,实在是过于可怕了。

  不得不承认单从技术上来考虑,这样有挑战性的数据收集和处理是一项伟大的工程,但从人性角度看,数据隐私受侵害到如此程度不得不令人担忧。一个人一天的互联网足迹描述这个人的一天是如何度过的,几年的全方位数据所整合生成的模型可以让任何一个看到模型的人比一个人更了解他自己。数据可以出卖一个人最喜欢做什么、他身边有哪些亲人和朋友、他有什么样的爱好和习惯,甚至他的口头禅是什么。这些数据浓缩后可以帮助一个弥留之际的人在病榻上回顾一生的美好时光,可以迫使一个作恶多端的人在牢狱中反省过去的胡作非为,却也可以毁掉一个人一生的清白。

  不过咱最担心的倒不是这些,反正美帝人民在咱看来一直都是生活在水生火热之中的,咱关心的是棱镜这个系统是否足够聪明。比如来自中东的新移民(warning)电子工程师比尔为了改建自己家的后花园,几天前从某网站购买了大量的钉子和化肥(warning),同时他又为妻子买了新的高压锅(warning)。前一天他感染上了流感,于是在一个夏天的周一穿上了厚厚的衣服(warning)来到地铁站(warning)。妻子叮嘱约翰上班前把包裹送到邮局,于是他在地铁站用手机给妻子发短信,内容是“还没机会,但我会完成的”(warning)。由于忙着发短信,约翰错过了他要搭乘的地铁。在地铁站川流不息的人流中,一个在夏季身着棉袄的人站在车门前盯着手机纹丝不动(warning),这立即引起了警察的注意,他们将比尔逮捕并移交美国国家安全局。

  显然,比尔就是一个打酱油的,可是大数据的分析结果告诉他们比尔不但购买了可以用来制造杀伤性武器的原料,而且常年在网络上搜索遥控电路的设计图,行为高度可疑。这一系列的偶然在执法部门看来都是必然,虽然他们没有找到确凿的证据给比尔定罪,但是有搜集的数据帮他们说话,比尔成了重点监视对象,执法部门也会戴上有色眼镜看待这个人。即便若干年后,比尔希望去国外参加他弟弟的结婚典礼,但上次的意外让他上了各大航空公司的禁飞名单,更无法获取签证。

  如果把比尔看作是一个点,那么收集到的信息通过和政府原有行政数据的整合,能够在计算机世界里重建一张巨大而复杂的社会关系网,而Facebook和微博上的虚拟人际网络对其来说只能是冰山一角。有了这张联系着所有人的关系网,试问谁又能在棱镜之下隐形呢?

关注读览天下微信, 100万篇深度好文, 等你来看……