曹操、DNA和大数据

  当下,大数据炙手可热。大大小小的IT公司都殚精竭虑地要与大数据发生关联,否则都不好意思说自己在IT行业里混,结构化数据也因此变得灰头土脸。“双11”网购狂欢之日,复旦大学宣布100%确定曹操家族DNA的消息,从而引发众多媒体的热议、公众的关注和专家的争论。这事的确与IT关系不大,本文因而没有机会凑这个热闹。但细想一下,在“曹操”、“DNA”、“大数据”这几个看似风马牛不相及的词语背后,还真能“牵强”出一点感悟。

  历经1800多年的磨砺,当年的史实已经变得模糊。通常,人们是通过史书、考古、家谱、文学、传说等多种视角来还原真相。不同的渠道获得的数据的真实度也不尽相同,特别是在家族亲缘的记述上。对于家族亲缘研究而言,上述渠道获得的数据虽然庞大,但信息量却很低,这多少有些像大数据。

  在曹操的研究上,历代有多少学者穷经皓首,孜孜以求。但在曹操家族亲缘研究上,复旦大学仅用了3年时间,就推翻了史学巨著《三国志》的结论。这是因为双螺旋结构的DNA分子承载着人类个体的遗传信息,因而可以通过对遗传特征的分析,来精准地断定血缘关系。在家族亲缘研究上,人的遗传信息就相当于结构化数据。

  现在企业管理体系是通过ERP、CRM等管理软件以流程的方式固化在企业运营中,因而,流程中处理的结构化数据必定是企业价值最大的数据。“打铁还需自身硬”,当企业信息化流程之间数据还不相来往或者数据没有深度挖掘之前,连企业运营都没有完全构建在结构化数据之上,谈论大数据无异于奢谈。

  大数据的价值与数据规模呈正比。但现在有多少企业能够拿到跨企业的数据?更不要说跨行业的数据了。再有,时至今日,企业对大数据的利用也是在将其结构化之后进行的。因此,在拥有海量数据之前和能对大数据直接处理利用之前,在企业运营中,大数据只能是结构化数据的补充。

  因此,对于绝大多数用户而言,如何深化和优化IT设施,比如说向云计算迁移,如何利用BI充分挖掘现有结构化数据的价值,可能来得更为紧迫而且更为实惠。花上几年时间苦练内功,等到企业借助流程和结构化数据实现了管理现代化时,大数据技术也会成熟起来。那时,大数据的应用便是水到渠成之事。

  在企业内部结构化数据远未充分利用时,盲目追捧大数据,无异于“丢了西瓜捡芝麻”。

  本报记者 马文方

关注读览天下微信, 100万篇深度好文, 等你来看……