对于一些人而言,《爆发》是一本好书。对另外一些人而言,《爆发》是一本不知所云的书。
这不奇怪。对于一本书的评价,就如我们看待相同事物的观点那样,有褒有贬,意见纷呈。每一种态度、主张或者看法,代表了不同人群所接受的教育背景、文化程度,甚至可以追溯到幼儿时期的某个特定的事件。
这么说,是否陷入“蝴蝶效应”的理论?中国版本的通俗解释是,假如新疆的一只蝴蝶扇动了翅膀,两周之后,广州会迎来一场暴风雨。“蝴蝶效应”常被解释成,初始状态某个微小的变化,就会引起最终结果的巨大差异。该理论在经济学、天气预报中被广泛应用,说明在这些领域中,许多事情是不可预测的。
《爆发》的作者巴拉巴西完全持有相反的观念:一切事件均有可能被预测。
在这本书中,他举了大量案例,有一个历史故事关于十字军东征。当队伍前进到一半的时候,国王下令就地解散队伍。而这些农民武装又想继续前进,作为领袖该如何决定?在过去依靠神灵,借助隐喻的条件下,领袖该如何利用?
从现在回看历史,一切结局均有答案。还原历史,身处当事人境地,有些决定很难做出选择。巴拉巴西不惜动用一切可能的证据论证,所有的历史事件发生自有规律,而非是偶尔性事件,比如十字军东征当时所做的决定。
这里可以多引申一下。历史学家黄仁宇也认为,从大历史的观点看过去,历史事件的发生不具有偶然性,而是必然性。这种必然性是由许多千丝万缕的事件造成的,不过现代历史学家过于沉迷于某个历史片段,不是从整个历史横切面来看。即便黄仁宇没有说到“数据”这个词,其实表达的意思相同。
巴拉巴西直到讲述天气预报的时候用到了“数据”这个词汇。在没有计算机之前,一位教授预计需要20 万个“人肉”计算器,坐满几个大厅,不停地演算,才能计算出某个区域的未来天气状态。而如今,全球天气预报系统对未来三天天气状况预测的准确度达到了95%。
如今天气预报系统所采用的理论基础和那位教授的相似,两者唯一差别是数据,还有计算能力,毕竟现在的计算机的处理能力远远高于任何一个人工的单纯计算能力。
巴拉巴西想表达的意思是,只要有足够多的数据,一切均可被预测。这个结论应该不是什么问题,只要数据真实可靠、数学模型合理,自然科学的大部分领域均可以被预测。正如这本书的副标题所说——大数据时代是预见未来的新思维。
这里面有两个难点。一个是数据,一个是数学模型。无论大数据从几个维度看(容量、速度、种类、真实)等,都尽量能穷举所有数据。只有建立在真实可靠的、过去数据的基础上(按照人文的说法,一切经验都不是从天上掉下来的,而是从实践摸索出来的),才能衍生出现在的数据。
数学模型考验的是逻辑判断能力。至少在《爆发》这本书里,说了两个重要的数学公式,柏松分布和幂律分布。前者是统计学中典型的随机性,后者则是通俗的8/2 定律,后演变成长尾理论。数学模型仅仅是大数据必备的要求。对于更多非结构化的数据而言,如何处理,将会用到更为复杂的公式。可以说,在公式中,将所有可能影响到的变量,均纳入到一个体系中,就能对最终数据产生影响。从这个角度说,“蝴蝶效应”的意思完全可以理解成,只要能精准地捕捉到新疆的一只蝴蝶在扇动翅膀,沿着翅膀带动的气流路径统计数据,建立精准的模型,就一定能预测到两周之后广州迎来暴风雨。
总结来说,有了大量真实可靠的数据,以及对数学模型的良好应用,加上运算速度快、适合运算的机器,未来被预测的可能性远远出乎人的想像。还记得被当作案例的奥巴马竞选时的预测吗,以及最近对奥斯卡获奖名单的预测吗?这些案例无不在证实未来可以被预测。
可能有人忧心忡忡担心隐私和安全问题。这应该是另一个层面的问题。在所有IT技术被应用的初期,安全都是一个问题。笔者的意见是,在没有领略到大数据的优势之前,就开始担心各种问题而拒绝使用,岂不是因咽废食?
本报记者 吴玉征
……
关注读览天下微信,
100万篇深度好文,
等你来看……