发展大数据要“应用为先”

  当前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展,这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。发展大数据也不能一拥而上,求大求新,要结合实际情况,以需求为导向,合理推进才能释放大数据的真正价值。

  大数据不要一味追求“数据规模大”

  大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。

  一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。实际发展中,应多在数据的融合技术上下功夫,重视数据的开放与共享。而且,所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。

  发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。

  不要“技术驱动”要“应用为先”

  新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继“大数据”以后,“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。

  不能抛弃“小数据”方法

  流行的“大数据”定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。

  统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。

  大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。

  要高度关注构建大数据平台的成本

  目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。但数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要以什么质量保存,要保存多少时间,都应当根据数据可能存在的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。

  我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。

  相关链接

  大数据时代的小数据

  当今被称为大数据时代,“数据为王”。手握大数据的阿里巴巴等大数据公司,成为地方政府竞相战略合作的目标;美国的非农指数、新房指数每一次出炉都吸引着全世界的目光,成为各国货币的价格高低、宽松程度,股市及大宗商品的价格走向等等的重要参考。

  大数据是信息社会发展到一定阶段的产物,人们对于海量数据的挖掘和运用,预示着很多领域颠覆性变革的到来。譬如,大数据的应用能够帮助电子商务、物流配送等领域进行消费者行为的判断,进而优化产品的销售模式等。但是,大数据具有三大特性:是全部数据,而不是随机采样;是大体方向,而不是精确制导;是相关关系,而不是因果关系。正因如此,面对同样一组大数据,不同的学者、经济学家、分析师可能做出完全不同的分析和判断。

  相比大数据的难收集、难把握,生活中的精准小数据其实随手可得,而且很直观,不会产生错觉。茶果农记成本账,政府贴钱采数据。也许正好说明精准小数据的珍贵。当前苏州茶农果农的生产成本到底怎么样,升了或降了多少,政府该采取哪些政策,不能靠估计,而要靠拿出精准的小数据做依据。因此,市物价部门花钱请茶农、果农记录生产过程中的成本投入、产品销售,开展农产品成本调查。此举表面上看,技术含量不高,实质上这样实地的采集,正好是现实社会最需要的,远比某些借晃眼的大数据之后推断出的结论要实在。身处大数据时代,要关注大数据,也要多关注身边精准的小数据,好处不少。譬如,笔者作为股民判断经济形势基本面,不会过分纠结于CPI、PMI、PPI,而是十分留意通往乡镇公路上的集装箱车辆多不多,老家的出租房租掉没有、租价是多少。因为前者不是自己能够看透的,而后者则很直观。

  大数据时代,带领我们走向一个新的世界。但是,对于商业决策者而言,大数据不是灵丹妙药,能不能用好大数据,核心还在于使用者、使用环境和数据结构。大数据挖掘不是黑箱,它需要思想。需要回归到人性,需要洞察,只有将大数据变成小数据,大数据的价值才真正地得以释放。

  中国工程院院士 李国杰

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: