当机器知道一切

  • 来源:瞭望东方周刊
  • 关键字:人类,未来,大数据
  • 发布时间:2013-09-17 09:36

  阿西莫夫的小说《基地》,建立在一个奇特的理论基础上。这种叫做“心理史学”的学说认为,虽然个体是模糊而不可描述,但是大量人口的行动是可以精确预测的。它有点像是热力学的扩展版,认为当人口达到某个统计学量级的时候,就可以精确预测世界的未来。

  以巨大的数量来弥合个体之间的差异,是人们一直在做的事情。如果心理史学的设想真的可行,必然需要建立关于人们思想、行为、喜好等等数据网络;然而如何收集这些数据、如何处理这些量级惊人的数据,阿西莫夫并没有提及。

  当然,《基地》只是一本科幻小说,而且写于1942年。当时电子计算机尚未诞生,即使是超前如阿西莫夫者,也不会预见到数据收集能力和计算能力会达到怎样的程度。

  现在,心理史学的技术基础似乎已逐步发展成熟。也许有一天,我们可以收集人类所有的行为数据,并像预测社会性昆虫的活动那样,预测我们自身。乍看之下有点难以接受,但这正是大数据研究者们梦想的未来。

  时代巨变

  今天的企业已经快要被数据淹没了。Google每天处理的数据量,是世界上最大图书馆所有存书数据量的上千倍,Facebook每天都会更新数千万张照片以及数十亿条新条目,而世界上最大的视频分享网站每秒钟上传的视频长度都超过一小时。这些数据价值巨大,因为每一个片段背后都有一个活生生的人。

  但是如何从数据中精准地挖掘出人们真正想要的东西,则成了前所未见的巨大挑战。

  这正是“大数据”这个新兴领域所研究的问题。虽然计算机芯片的发展速度让我们拥有了之前无法想象的计算能力,但是面对这种量级的数据,依然需要探索。

  2008年9月,世界上最著名的学术期刊之一《自然》做了一期大数据的专刊,大概可以视作大数据闪亮登场的标志。然而和诸多新技术一样,大数据也经历了学界的热捧、质疑之后,才在业界慢慢发展起来,最终成为用户耳熟能详、风险投资趋之若鹜的名词。

  它的动力在于人类测量、记录和分析世界的渴望,在于人类发现一切的雄心:希望以一种前所未有的方式,从海量数据中挖掘出人们自己都不会意识到的需求,提供无处不在的帮助,让这个世界变得更好。

  当我们开始更多地借助计算机来探索世界的时候,也就自然而然地引发了数据爆炸。今天地球上数据产生的速度已经超过了数据存储设备生产的速度,而且增速没有丝毫放缓的迹象。

  当技术成熟到我们可以获得和使用所有数据,且无需在其中抽样的时候,当我们可以借由互联网访问所有数据的时候,量变便引发了质变。

  发现更多的细节

  从上世纪50年代开始,人们就迈开了探索机器翻译的脚步。人们开发了各种各样的算法,以语料库来为机器翻译软件提供养料,希望让计算机可以像人们一样,学习人类的语言,最终让语言之间的隔阂消失不见。但是,即使到了今天,机器翻译依然远不完美。语言的模糊性让擅长精确的计算机一筹莫展;虽然人们已经尽力让计算机学会接受模糊,但是成效不彰。

  2006年,Google推出了机器翻译系统。它的思路完全不同:以海量的语料库作为备选,选择所有可能的翻译,然后在其中选择可能性最高的那个。它不大在意输入的语料库质量,而只在乎数量。Google用一贯的思路来看待这个问题:即足够的数量可以弥补质量的不足---知道得越多,就会猜得越准。Google的科学家认为,大数据基础上的简单算法,会比小数据基础上的复杂算法更加有效。

  维基百科也是这样。似乎只要找对了方法,大数据就会具有某种自我清洁的能力,会更可能给出正确答案。

  大数据为机器学习带来了全新的思路,也会改变我们与这个世界交互的方式,许多过去依赖于人类判断力的领域都会面临革命。不仅仅是机器翻译或者机器自动驾驶汽车;网站将会向我们推荐更适合我们的产品,搜索引擎将会根据我们的喜好而重排搜索结果,社交网站会向我们推荐我们更有兴趣结识的朋友,银行会在发现账户出现不合常理的支出时提出警告。

  在计算能力和算法的帮助下,我们将可以分析更多的数据,而不像过去那样只依赖于抽样分析。这将会带来更准确的结果,并且发现那些传统分析方式无法发现的细节---而这些细节,往往会打开一扇新的大门。

  改变人们看待问题的方式

  大数据让人们拥有了全新看待问题的方式。传统上,人们更热衷于分析因果关系,例如购买婚礼用品的年轻人,往往会在之后的一年之内购买婴儿用品;但是在大数据领域,人们不这样看问题。在海量数据面前,相关性的重要性超过了因果性。不必关心原因;只需要找到那些彼此相关的需求即可。

  今年,Netflix公司开发的一部新剧成了意料之外的大热门。这个拥有3300万以上用户的在线视频租赁企业拥有海量的用户数据,不仅知道每一位用户曾经租过、看过什么片子,还知道他们在观看过程中快进、回退、暂停的具体时间。根据这些数据,Netflix几乎可以描述出每位观众在看电影时的具体动作。

  对这些数据的分析,让这家公司发现了一些有趣的关联。有些用户喜欢同一位导演、同一位演员与同一部剧目。于是,他们翻拍了这部剧,请了这些受欢迎的导演和演员来参与,并且大手笔地砸下一亿美元,拍摄了两季26集,并且在一天内全部上映完第一季。

  这种打破了无数电视业传统模式的剧目就是《纸牌屋》。Netflix完全没有像传统电视剧那样拍出试拍集,以试探观众的反应;这完全是算法的胜利。《纸牌屋》的成功被视为大数据在流行文化领域的胜利:只要有足够的数据,我们可以计算出目标观众最可能最买账的文化产品,对其节奏的控制甚至可以精确到每一页或者每一分钟。

  也许对于崇尚风格和挑战的文化产业来说,计算机的介入会设下一道电网,让人们唯唯诺诺于计算结果之前,不敢越雷池一步;但是,至少就目前来说,像《纸牌屋》这样的成功,只不过是孤例而已,担心还为时尚早。

  反思和担忧

  如今连接在网络上的移动设备,已经多过了固定设备。用智能手机或者平板访问网络的用户随处可见,他们让那些端坐在自家书房访问网络的人,看起来像是老古董。而可穿戴设备和更多的传感器可能会把这一情形继续向前推进,直到把一切我们可以想象到的事物和人都化成数据为止。

  大数据时代要求我们找到方法来量化所有过去看来微不足道的小事,把所有数据都保存在永远在线的互联网上,并以此为基础挖掘出前所未见的潜在价值。云计算和物联网是大数据时代的基础,而这两者都在逐渐成形。机器将会感测一切、计算一切,然后帮我们作出最好的选择---人类的生活也许从来没有如此安全和方便。

  不过,这种设想将会导致对隐私的担忧,甚至会引发愤怒情绪---人们不愿意承认自己的一切都可以量化,不愿意接受计算机的引导和建议,认为这样丧失了人之所以为人的基础:模糊,不确定,随机。美和爱这样的感觉,该如何量化呢?

  科幻作家刘慈欣的《诗云》曾经讲过一个类似的故事。外星智慧生物体会到了古诗之美,于是穷尽所有可能组合,把所有可能的诗句都记录了下来。这些诗记录在微小的卡片上,而制造这些卡片耗尽了地球上的大部分物质,让地球外面围起了一圈诗歌之云。但是,这些外星人也没有办法挑选出那些好诗---好诗,并不是可以靠算法来分析的。

  这可以算是对技术发展的恒久反思。每一次革命性新技术的出现,必然都伴随着对人类本质的拷问。然而,我们总是在漫长的磨合之后,才会坦然接受技术带来的方便,同时接受与新技术共生的事实。

  大数据同样如此。每个人依然是独一无二的个体,计算机永远无法真正理解人类的需求;大数据只不过是一种技术手段而已,和语言、文字、印刷术、互联网的作用一样:消除真实世界中的种种限制,让人类自己在智力发展的路径上走得更远。

  文/猛犸

  (作者系科技专栏作者,关注IT技术、技术史和技术对社会的影响。曾出版《未来在现实的第几层》等作品)

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: