大数据安全与隐私保护的问题及对策

  大数据是近年来非常热的一个话题,目前IT科学问题基本三年为一个周期,但是大数据预计会有6~9年的话题周期,因为云计算话题从成熟到应用,已经走过约八九年的历程。从大数据本身来看,存在有很多观点。比如《Science》上曾有刊文指出,能够根据个体之前的行为轨迹预测他/她未来行踪的可能性,即93%的人类行为可预测。

  大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。从“数据”到“大数据”,不仅仅是数量上的差别,更是数据质量上的提升,即从量变到质变。

  机遇和网络安全挑战共存

  随着计算机处理能力的日益强大,人们能获得的数据量越大,能挖掘到的价值就越多。实验的不断反复、大数据的日渐积累让人类发现规律、预测未来不再是科幻电影里的读心术,这也是大数据分析可见的价值之一。

  从大数据分析挖掘的价值角度来看,大数据分析挖掘和数据融合的异同在于:大数据分析挖掘因为有极其丰富的数据作为基础,可以让“有规律的随机事件”在大量重复出现的条件下,呈现几乎必然的统计特性。

  而数据融合其实是在一定的数据量条件下,通过多源传感器的协同,改进测量和预测的结果,在发现规律、预测未来的准确性方面和大数据分析挖掘不在一个数量级上。从数据融合到大数据分析挖掘,其实是从小智能到大智慧,这也是大数据分析挖掘的核心价值。大数据作为社会的又一个基础性资源,将给社会进步、经济发展带来强大的驱动力。大数据代表了先进生产力方向,已经成为不可阻挡的趋势。大数据的安全问题表现在:

  一是网络攻击成愈演愈烈之势。如今的网络攻击,往往是通过各种手段获得政府、企业或者个人的私密数据。因此在大数据时代,数据的收集与保护成为竞争的着力点。从隐私的角度来看,大数据时代把网络大众带入到了一种开放透明的“裸奔”时代。

  二是DT(数据技术)时代是开放与安全的二元挑战。在大数据获得开放的同时,也带来了对数据安全的隐忧。大数据安全是“互联网+”时代的核心挑战,安全问题具有线上和线下融合在一起的特征。

  传统解决网络安全的基本思想是划分边界,在每个边界设立网关设备和网络流量设备,用守住边界的办法来解决安全问题。但随着移动互联网、云服务的出现,网络边界实际上已经消亡了。信息安全的危险正在进一步升级,在APT、DDoS、异常风险、网络漏洞等威胁下,传统防御型、检测型的安全防护措施已经力不从心,无法适应新形势下的要求。

  三是难以用有效的方式向用户申请权限,实现角色预设,难以检测、控制开发者的访问行为,防止过度的大数据分析、预测和连接。在大数据时代,很多数据在收集时并不知道其用途是什么,往往是二次开发创造了价值,公司无法事先告诉用户尚未想到的用途,而个人也无法同意这种尚是未知的用途。

  大数据带来诸多网络安全和用户隐私问题

  一是大数据依托的NoSQL(非关系型数据库)缺乏数据安全机制。从基础技术角度来看,大数据依托的基础技术是NoSQL。当前广泛应用的SQL(关系型数据库)技术,经过长期改进和完善,在维护数据安全方面已经设置严格的访问控制和隐私管理工具。

  二是社会工程学攻击带来的安全问题。社会工程学的特点是:无技术性、成本低、效率高。该攻击与其他攻击的最大不同是其攻击手段不是利用高超的攻击技术,而是利用受害者的心理弱点进行攻击。

  三是软件后门,也会成为大数据安全的软肋。在软件定义世界的时代,云计算、大数据的基础,软件是IT系统的核心,也就是大数据的核心,所有的后门可能都是开放在软件上面的。

  四是文件安全面临极大挑战。文件是整个数据和运行核心,大多数的用户文件都是在第三方的运行平台中存储的和处理的,这些文件往往包含了很多部门和个人的敏感信息,安全性和隐私性自然成为重要的问题。

  五是大数据存储安全问题。大数据会使数据量呈非线性增长,而复杂多样的数据集中存储在一起,多种应用的并发运行以及频繁无序的使用状况,有可能会出现数据类别存放错位的情况,造成数据存储管理混乱或导致信息安全管理不合规范。

  六是大数据安全搜索挑战和问题。我们需要更高效更智慧的分割数据,搜索、过滤和整理信息的理论与技术,以应对大数据越来越庞大的处理量,特别是实时性数据变化加快,以及非结构化数据品种增多。

  大数据安全搜索服务将上述浩瀚数据整理分类,可以帮助人们更快更高效地从中找到所需要的内容和信息。

  七是基于大数据的威胁发现技术挑战。基于大数据的威胁发现技术虽然具有上述的优点,但它目前存在一些挑战:一方面,大数据的收集很难做到全面,它的片面性会导致分析结果的偏差。为了分析企业信息资产面临的威胁,不但要全面收集企业内部的数据,还要对一些企业外的数据进行收集;另一方面,大数据分析能力的不足,影响分析的准确性。

  八是大数据带来的高级可持续攻击挑战。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而高级可持续攻击(APT)是一个实施过程,无法被实时检测。

  九是大数据支撑平台--云计算安全。云计算的核心安全问题是用户不再对数据和环境拥有完全控制权,云计算的出现彻底打破了地域的概念,数据不再存放于某个确定的物理节点,而是由服务商动态提供存储空间。这些空间有可能是现实的,也可能是虚拟的,还有可能分布在不同国家及区域。

  十是大数据用户隐私保护考验问题。大数据分析预测带来的用户隐私挑战。从核心价值角度来看,大数据关键在于数据分析和利用,但数据分析技术的发展,对用户隐私产生极大的威胁。在大数据时代,想屏蔽外部数据商挖掘个人信息是不可能的。

  十一是大数据共享安全性问题。我们不知道该如何分享私人数据,才能既保证数据隐私不被泄漏,又保证数据的正常使用。真实数据不是静态的,而是越变越大,并且随着时间的变化而变化。当前没有一种技术能在这种情况下产生任何有用的结果。

  十二是大数据访问控制难题。访问控制是实现数据受控共享的有效手段,由于大数据可能被用于多种不同场景,其访问控制需求十分突出。

  十三是大数据的可信性难以保障。网络的数据并非都可信,这主要反映在伪造的数据和失真的数据两个方面。有人可能通过伪造数据来制造假象,进而对数据分析人员进行诱导,或者数据在传播中逐步失真。这可让大数据分析和预测得出无意义或错误的结果。

  应对用户隐私问题的对策

  首先,是基于大数据的威胁发现技术。利用该技术,企业可以超越以往的“保护-检测-响应-恢复”(PDRR)模式,更主动地发现潜在的安全威胁。相比于传统技术,基于大数据的威胁发现技术有以下优点:分析内容的范围更大。企业信息资产包括数据资产、软件资产、实物资产、人员资产、服务资产和其他为业务提供支持的无形资产。

  其次,基于大数据的认证技术。基于大数据的认证技术指的是收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,进而通过鉴别操作者行为及其设备行为来确定其身份。这与传统认证技术利用用户所知秘密,所持有凭证,或具有的生物特征来确认其身份有很大不同。

  最后,基于大数据的数据真实性分析。目前,基于大数据的数据真实性分析被广泛认为是最为有效的方法。

  (本文根据上海交通大学信息安全工程学院常务副院长李建华在“2016高等教育信息化创新论坛”上部分演讲内容整理而成。)

  ■上海交大信息安全工程学院常务副院长 李建华

关注读览天下微信, 100万篇深度好文, 等你来看……