关于数据开放共享的若干思考

  大数据首先要明确目标,数据是基础,平台是支撑,分析是核心,赚钱是王道。于大数据产业而言,数据就是基本的生产资料,而平台为收集存储数据提供支撑,最为核心的是分析,通过对数据的具体加工解决实际问题,进而变现创造价值。

  数据开放共享是大数据产生大价值的必要条件

  首先,从科学角度来说,大数据炙手可热,数据具有价值,但真正实现在大数据中挖掘价值,需要遵循基本规律和原理,不可违背。大数据之所以有价值,原因在于获取数据比较容易,以致数据集载量非常大;大数据之所以有用,原因在于对于很多问题而言,数据量的积累超过了一定的量,可以看出背后的故事和规律。所以这个过程可以将其概括为量变、质变原理。

  其次,需要分析出价值原理,如果仅仅是搜集数据,没有分析出价值原理,就如同买了米没有做饭是一样的道理。

  最后,数据关联原理,大数据时代不一样的地方就在于懂得应用数据。过去与现在不一样,我们会把过去看起来根本不相关联,彼此之间不可能发生联系的数据连接在一起,这就是产生不一样价值的根本原理。大数据做得好不好,不是取决于量有多大,根本上是取决于分析水平的高低,取决于数据的关联与宽度,讲究数据的完整性及数据各方面的机动性才是数据的本质。从这个意义上来说,数据的开放共享是大数据产生价值的必要条件。

  从国家战略需求的高度去认识,发展大数据是国家需求,不仅仅是大数据产生价值的需求,科学的需求,更重要的是国家的需求,这是更为需要着重关注的。所以贵阳市重视并努力实践大数据,只要努力,就能做到;只要重视,总会成功。

  关于数据开放共享,“不愿、不敢和不易”导致数据共享难是现实,但是贵阳市在政策、技术等方面是如何解决这些问题的呢?一是应用驱动,人民的呼声、市场诉求导致了开放,倒逼法律、技术的诉求反而更多;二是政策支持,也是最基本的;三是技术创新,也是毋庸置疑的。

  推动数据开放共享必须要有相应公共政策支持

  第一,数据属性分类。泛泛讲数据共享开放只是口号,要解决数据该开放就开放、该共享就共享、该保护就保护是客观存在的需要去面对的问题。数据资源到底要不要开放、要怎么开放,可以授权使用、分级使用等等,大道理大家都知道,但是如何制定数据属性分类管理政策支撑则需要细化去解决。

  第二,数据所有权界定。政府数据是国有资产,其实这是一种认识,国家政府数据到底是国有公司开放,还是民营公司开放?数据所有权到底属于谁,其中的关系要如何处理,也是需要去考虑的大问题。

  第三,数据价值判断与定价。作为一项技术,定价是大问题,数据如何定价,值多少钱。这是很复杂的法律问题,但是毛数据、元数据和加工后的价值肯定不同,数据的真正价值是加工后所产生的价值。

  就相当于数据从来不用,达不到价值,埋在山里的宝石矿,只有经过工匠打磨之后才值钱,所以这其中有很多具体的政策、法律问题需要解决。

  第四,数据开放、开发、共享政策。这肯定是先易后难,逐步开放,但一定要培育多元政策执行主体,不能只集中于政府一个主体,政府应与企业、中介机构齐心协力去实现,当然,这其中必然绕不开政策监管体系。

  第五,数据质量标准。收集数据多,但是质量不高是很大的问题。希望贵阳市在探索和实践过程中,对以上的五个问题,能给出一些好的答案,多多关注并收集相关解决方案,将来会大有裨益。

  推动数据开放共享必须要有切实可行的技术

  技术是拦路虎,过去的历史不同、系统不同、信息化发展程度不同,以及利益分割等各方面的问题决定了数据打通不是一蹴而就的事情。燕云DaaS系统另辟蹊径,打破信息孤岛,自适应数据总线+系统智能适配,一个月就将53家单位及315个系统全部打通,这很震惊,很多人称之为“大数据贵阳速度”,确实了不起。

  互操作技术必须更加支撑综合分析与挖掘

  打通数据只是第一步,达到互通、互调、互用,再到最终目的——分析,系统打通可以支撑之后的分析挖掘,这才是根本。

  但是系统能支持多大程度上更复杂的分析挖掘,技术并不能解决所有问题,这时候就需要做出一个标准,对于大数据可扩计算、并行计算、分布式计算、实时计算、跨媒体计算等做出评估标准,这些计算多大程度可以支撑。

  技术与基础相关联,真正好的大数据分析和处理技术来源于基础,而这个基础现在绝大多数没有解决,计算问题、数据问题等一些基础没有解决,又想大数据赚钱,难免会遭遇失望,所以解决基础问题是最基本的。解决这些问题要反复的迭代,打通的体系能不能解决,数据分析和处理能不能支持,在做技术层的时候,希望能将这些因素考虑进去。

  应努力研发开放共享与隐私保护共存技术

  隐私总是要有的,但是又特别好奇,那怎么办?能不能换一些方式?比如数据抽象,从技术上去解决,设计总体技术框架,能够帮助保护隐私,同时也能知道想知道的,这就是分布处理技术,该技术正在成型,正在发展,有待关注。

  综上,数据开放共享是大数据产生大价值的必要条件;推动数据开放共享必须要有相应公共政策支持;推动数据开放共享必须要有切实可行的技术;互操作技术必须更加支撑综合分析与挖掘;应努力研发开放共享与隐私保护共存技术。

  (本文根据中国科学院院士徐宗本演讲整理而成,未经本人确认。)

  相关链接

  大数据技术带来的伦理问题主要包括以下几方面:一是隐私泄露问题。大数据技术具有随时随地保真性记录、永久性保存、还原性画像等强大功能。个人的身份信息、行为信息、位置信息、观念、情感与社交关系等隐私信息,都可能被记录、保存、呈现。在现代社会,人们几乎无时无刻不暴露在智能设备面前,时时刻刻在产生数据并被记录。如果任由网络平台运营商收集、存储、兜售用户数据,个人隐私将无从谈起。二是信息安全问题。个人所产生的数据包括主动产生的数据和被动留下的数据,其删除权、存储权、使用权、知情权等本属于个人可以自主的权利,在很多情况下难以保障安全。一些信息技术本身就存在安全漏洞,可能导致数据泄露、伪造、失真等问题,影响信息安全。此外,大数据使用的失范与误导,如大数据使用的权责问题、相关信息产品的社会责任问题等,也是信息安全问题衍生的伦理问题。三是数据鸿沟问题。一部分人能够较好占有并利用大数据资源,而另一部分人则难以占有和利用大数据资源,造成数据鸿沟。数据鸿沟会产生信息红利分配不公问题,加剧群体差异和社会矛盾。

  中国科学院院士 徐宗本

关注读览天下微信, 100万篇深度好文, 等你来看……