大数据时代的真实自我

  • 来源:计算机世界
  • 关键字:大数据,钞票
  • 发布时间:2013-03-29 11:15

  在上一篇专栏中,我们谈到了大数据的魅力。这一期,我们从大数据与自身的关系说起。

  美国有一家跟踪钞票的网站,页面简单。只要把美元的序列号登记到网站上即可,接下来做的事情就是把网址标注到这张钞票上,花掉这张美钞。如果遗失,或者这张美钞忘记标注上网址,那么此次行为几乎失败。

  只有当钞票流动、被人们注意的时候,这个跟踪钞票去向的网站才有价值。如今,这个网站已有10多年,分门别类的记载着某一张钞票出现的时间、地点,包括两次出现间隔的时间和地点等信息。标记最多的那些钞票下还有地图,记录这张钞票出没的地理位置。

  在TOP名单中,标记次数最多的一张钞票是一美元。第一次被标记的时间是2002年3月18日上午,地点是美国西部城市代顿;最后一次被标记的时间是2005年3月26日上午,地点是美国密歇根州的拉德亚德市;至今为止,这张钞票被标记了15次,旅行长度为4191公里,历经三年多的时间。

  然后呢,这张钞票失踪了。

  这张年份为1999年的钞票也许被放到牛仔裤的屁股兜被忘记拿出来,扔进洗衣机里被搅碎,也许被小狗当做玩具咬碎,也许被遗忘到某个家伙的衣柜中,更有可能的是被银行收走,破损不堪而销毁。不管怎么样,这张钞票很大程度上解释了某些地区人们使用金钱的习惯。

  这只是一张钞票而已。至今为止,这家网站记录了220,849,207张钞票。如果把每张钞票都记录下来,那么,可以发现更多有价值的数字。

  57%的钞票在美国纽约被标记之后,两周后出现的位置不会超过10公里。而在佛罗里达州,74%的钞票被标记后,再次出现的地点仍旧在附近。这就是两个区域的消费模式不同。大约7%纽约地区和3%佛罗里达州被标记的钞票都漂移了800公里以外的地方,这意味着有一部分人做了长途旅行。

  研究人士认为,寻找这些钞票的运动轨迹其实就是发现人们活动的轨迹,或者是建立消费的模型,更有可能建立疾病传播模型。我们经历的大规模的疫情都在说明,疾病会随着人的旅行而被快速传播,还记得非典吗,今年是10周年。假如当年有大规模的数据记录,也许更能快速控制疫情的爆发。

  记录钞票的例子说明,只要有足够多的数据,足以研究人的行为。所以,人的行为并非不可预测,而是均可预测,跟踪钞票的网站仅仅是其中的个案。

  我们再看自身的生活。

  大多数人在社交网络流连忘返。无论是喃喃自语、暴露狂还是深度网瘾患者,社交网络记录下你的一言一行。在你的邮箱中,系统运营商知道你经常给谁发邮件,(只要允许)它甚至知道你每次发邮件的间隔时间,用词习惯,甚至是情绪。

  国外有一位深度数据狂。他在家里三百六十度搭设了数个摄像机,用视频记录每天每小时的生活。这种记录旨在分析家庭,包括什么时候吵架、吵架爆发的原因;家庭幸福和睦保持的时间等等。也许这种记录仔细挖掘,将帮助他更好的生活。

  虽然我们大多数人对个人隐私抱有谨慎的态度,但在社交网络上还是无意中透露个人信息。电子邮件、社交网络、QQ、购物清单、信用卡账单、水电煤气费用、个人通信记录、短信等等。假如这些割裂的个人信息能被汇集,提取关键词汇形成“生活信息流”,OK,个人生活轨迹一目了然,个人就如被放在放大镜下被观察。

  除了被看到细节之外,无所不在的信息演变成一个个0101数字,这些数字可以帮助我们分析个人的习惯。千万不要再认为个人如同花粉落在水池中随机活动那样,符合布朗规律。其实,个人的生活自有内在规律,现在欠缺的是如何收集数据,如何分析,建立何种模型,寻求哪方面的预测结果。

  现在的数据足够多了,每个人都进入大数据时代。所以,如果要想我们每个人的行为举止都可以被预测出来的话,这就是借助日常生活中的大量的数据,以及更多新兴工具。

  忘掉电影《阿甘正传》里面充满诗意的台词吧:生命就像一盒巧克力,结果往往出人意料。实际上,在大数据时代,我们完全是一台台处于自动驾驶状态、并做着美梦的机器。从大数据看待我们自身,也许更接近于真实。

  本报记者 吴玉征

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: