大数据不能全部开放

  • 来源:中国信息化周报
  • 关键字:大数据,医疗行业,IP,十三五
  • 发布时间:2016-06-23 10:31

  2015年和2016年全世界新产生的数据量等于人类有历史以来一直累计到2014年全球数据总量的总和,近两年,我们国家正在加速进入大数据时代。

  大数据是数据的一部分,不是所有数据都能开放,而是按照分类部分开放。

  大数据是多来源的,包括社会空间数据、物理空间数据以及信息空间数据。

  按网络层面划分则包括自媒体数据、日志数据、富媒体数据、基础网络数据。也可以分为国家安全数据、商业秘密数据、个人隐私数据,这三方面的数据都不能开放,开放的是其他的数据。

  大数据的多重性质特点

  大数据具有增长性、颗粒性、异构性、移动性、多维性、语义性、隐私性等特点。

  以医疗大数据为例,中国一个千万人口的城市50年所累计的医疗数据量就会达到10PB级。每天都会有大量的数据导入区域医疗数据中心。

  数据是长期性的,按照医疗行业的相关规定,门急诊患者的数据保存不得少于15年,疏远数据保存30年,影像数据无限期保存。从另一方面来看,医疗数据多样性和碎片化,颗粒性大小差别很大。而且通常也都需要带有时间、位置、环境和含着病史及家族史等信息。

  与此同时,医疗数据把患者、医生、医疗机构在不同层次上关联。而不同的医疗信息废物更需要从不同的视觉来观察这些数据。

  此外,存储需要加入语义标签,对影像的理解需要有更专业的经验。当然,如果医疗数据涉及患者隐私就需要加以保护,也需要对医疗纠纷进行保护。

  网络视频已经成为IP流量主导

  网络视频已成为IP流量主导。全球消费者互联网视频从2014~2019年年均增长33%,2019年消费互联网视频每年将增加33%。动视频流量2015—2020年年均增长将达62%,移动视频占移动流量数据的比例从2015年的55%增加到2020年的75%。

  到2020年,数据量会达到40ZB,装到光盘上,重量可以等于现在美国的“尼克兹航母”,可以装几十艘。我们需要将非结构化数据转换为结构化数据来处理,包括政务大数据,消费者大数据,企业级大数据,医疗大数据等。

  以政务大数据为例,一个8M摄像头每小时产生3.6GB数据,很多城市的摄像头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达到EB量级。

  大数据在于精

  大数据不能以大盖全,大数据追求数据精准但强调规律。这可以理解为对于一个大数据集而言,我们很难要求所有的数据都精准,只要大多数数据有代表性,并不妨碍数据集合得到较为准确的结果。

  此外,大数据可以提高分析精度。康奈尔大学教授用同心的思维来解决语音识别,语音识别率从70%提高到90%以上。最近十年,语音识别错误率和机器翻译的准确性都成倍改进,其中20%的贡献来自方法的改进,80%则在于数据量的提升。

  我国的大数据安全领域仍然存在短板

  现在大数据产业90%以上基本都是外国公司,在大数据产业里面,我国现在仍存在短板。

  大数据的安全问题至关重要,大数据意味着海量数据的汇集,会引来更多潜在供给者。黑客在大数据时代有多维的数据,把它关联起来很容易就破解了这些关系,可以入侵企业的网络。

  在国家的“十三五”规划里面,着重有一节提到了大数据安全技术,提出要加快海量数据的采集、存储、清洗、分析发觉、可视化、安全与隐私保护等关键技术攻关。其中也提到了集中力量突破信息管理、信息保护、安全检查和基础支撑等关键技术,提高自主保障能力,加强关键信息基础等方面的建设。

  大数据本身是一个产业,现在全世界的大数据市场是由硬件和软件服务构成,我们没有像微软、英特尔那样的骨干企业,在大数据安全上面我们确实是短板。

  国产的设备虽然是自主研发,但未必是安全可控。

  自主不等于可控,只要有漏洞就可能成为非法获取信息的来源。据有关安全机构的统计,我国高达16%的网站存在安全漏洞和后门,可以说网站和应用系统的漏洞是大数据平台面临的最大危险。

  大数据已经成为信息社会的热点,也是信息安全博弈的焦点,大数据的安全需要从技术、产业与管理多维度来保障,还需要人才法规来支撑,大数据本身既是安全方面的重点,也是保障网络与信息安全有力的手段。

  (以上内容根据中国工程院院士邬贺铨在“第一届大数据科学与工程国际会议(2016)——大数据科学认识与理解”以及“2016中国大数据产业峰会暨中国电子商务创新发展峰会”上的演讲整理而成,未经本人确认。)

  相关链接

  2016年大数据发展七大趋势

  ■算法的崛起

  2016年,人们更加关注对已接触数据采取什么行动。算法能够定义行为,能够很好地执行专业的指令,远比人类做得要好。这些算法是非常专业的人工智能。但是,非常专业的AI已经存在,2016年我们将见证算法商务的崛起。

  ■数据湖服务作为一种解决方案

  越来越多的大数据供应商会提供这样的解决方案:给企业提供一个完整的、易于使用的、可扩展的解决方案,省去企业自建数据湖的麻烦。

  ■区块链将被各行各业所接受

  不同行业的多个应用程序使用区块链。基本上任何存在数字化交易的行业都将受益于区块链技术,从金融业,法律行业,房地产,公证员,赌博,发布到数据存储。未来一年,更广泛的采用区块链将迫在眉睫。

  ■人力资源分析

  在一个过热的市场,对人才的争夺战愈演愈烈,对于一个组织而言,了解员工的驱动因素,并且很好的激励他们变得越来越重要。在2016年,更多的组织将致力于人力资源分析,这些领域的初创企业数量将迅猛增长。

  ■智能政府致力于提高社会和公民体验

  对于那些大的商业组织而言,大数据已经成为通用语言。在适应新趋势方面,政府是缓慢的,但是在2016年,我们会看到更多的国家、地区和地方政府会采用大数据技术来提高社会和公民的体验。

  ■增强大数据的安全,并防止数据泄露

  伴随着数字化进程,物联网将物物连接为网络,大数据的安全变得越来越重要。2016年,我们将看到组织是如何管理他们的数据保证数据安全的。

  ■智能机器带来的雾分析以改变他们的行业

  组织将转向人力资源分析,以更好地激励员工,争夺稀缺人才。政府终将看到大数据的益处,并向智能化方向转变,但是组织和政府将不得不警惕黑客攻击,并采取适当措施。由于智能机器将出现在各行各业,雾分析时代正式开启。

  ■中国工程院院士 邬贺铨

关注读览天下微信, 100万篇深度好文, 等你来看……