大数据背景下的数据安全研究

摘 要:大数据的迅速走热使得大数据的安全问题至关重要。论文首先从大数据带来的新风险和挑战为出发点,分析了传统数据安全和大数据安全研究的联系与区别,着重研究了大数据背景下的安全策略问题,包括对传统数据备份和数据恢复技术的研究、差分隐私技术的原理和实施性分析等,进而提出了大数据环境下的应用体系和信息体系的安全研究方案。

关键词:流动性威胁;差分隐私;安全沙箱;APT

中图分类号: TP39 文献标识码:A

Research on Data Security Based on Big Data

Tong Duan, Lv Jie, Xu Hong

(School of Information Engineering, Nanjing University of Finance & Economics, Jiangsu Nanjing 210046)

Abstract The rapid heat of big data makes security issues critical. Starting with the new risks andchallenges posed by big data, this article analyzes the relationship and difference of traditional datasecurity and big data security, focusing on security policy issues under the background of big data,including the research of the traditional data backup and data recovery technology and the principle andimplementation analysis of differential privacy technology. And then put forward the application system ofbig data environment and the security research scheme of information system.

Key words Liquidity Threat; Differential Privacy; Sandbox; Advanced Persistent Threat

1 引言

随着信息技术的快速发展和互联网规模的迅速扩张,一些安全性问题日益明显,诸如未经授权数据集的使用和访问、对大量可能敏感数据的提取和使用工具所产生的安全性问题等。当今社会很多无效率事例都能暴露人们的隐私,例如在银行自动取款机前、超市便利店、机场安全线和城市交叉口等地方,人们都处于摄像机的监视之下。一旦这些资源是联网的,这些相关联的数据流就可能被人窃取而滥用。除此之外,作为一个高成本效益的代理平台 — 云媒体,可能会启动僵尸网络或应用大规模并行程序来破解密码系统[1] 。划分边界是传统的网络安全解决方案的基本思想,这种思想主要是通过在内外网边界建立一些网关设备或网络流量设备来解决安全问题。但是随着移动互联网技术和云服务技术的出现,各种移动终端可以在WiFi网络和4G网络自由穿梭,网络边界实质上已经消亡了。

大数据的走热导致人们对数据保护和数据隐私问题的关注度加深,收集大量数据的责任机构和组织必须确保它的安全,确保数据不会落入未授权的个人手中。大数据背景下发生的网络攻击和泄密事件的范围更广,影响更深, 因此大数据背景下的信息安全尤为重要。

2 大数据带来的风险和挑战

2.1 大数据的存储方式给数据安全带来新的风险

目前,大数据大多采用云存储,云存储的优点主要体现在三方面:容量大、成本低、可扩展。云存储在为我们带来方便的同时,也带来了安全隐患。

(1)可靠性问题。2011年亚马逊的云数据中心出现了服务器大面积宕机事件,2010年微软在美国西部几周时间内出现至少三次托管服务中断事件,因此用户能否访问到自己的云存储数据直接取决于服务商的可靠度。

(2)数据安全问题。存储在云端的数据也会由于服务商的失职而被泄露、更改甚至消失。2011年,Google邮箱发生的用户数据泄漏事件,其规模之大,直接让15万Gmail用户的所有邮件和聊天记录被删除,以及部分用户的账户被重置。2012年盛大云在无锡的数据中心因为一台物理服务器磁盘发生损坏,导致用户数据的丢失。

(3)数据权属问题。存储在云端的数据很有可能在互联网上的任何数据中心,极有可能被未经授权的第三方访问。2016年,国内最大的实时公交软件“酷米客”的大量后台数据被窃取泄露,而数据窃取者是它的同行业竞争对手“车来了”。此次泄漏事件导致“酷米客”的间接损失将近20亿,其中包括大量的核心商业数据。因此,数据量的增长、变化和速度提升等都需要新的方法来预防和管理。

2.2 大数据的分析对计算机的结构提出了挑战

大数据时代,除了要处理传统的结构化数据,半结构化和非结构化的数据也增长迅速,这些呈指数增长的新型数据冲击了传统的数据分析技术。

(1)数据存储模式的转变带来的流动性威胁。传统的数据都是静态的,都是经过分析提取然后存到数据库里,需要时再被调出来研究使用;而大数据是随时随地会动态产生的,必须边扫描边分析[2] ,这种动态的流动性威胁对计算机的结构提出了新需求。

(2)大数据的快速有效处理提出了新挑战。大数据时代,各种应用场景的数据分析不再局限于离线环境,对在线分析的需求也越来越高,传统数据库的存储能力无法满足呈指数增长的数据量,数据类型的多样化使得传统数据库的处理压力成倍增长,这就需要更新更快的大数据分析框架来提升数据的处理能力。Spark Streaming [3] 和Storm [4] 是目前有代表性的在线大数据分析框架。Spark Streaming是一个准实时的流处理框架,处理响应时间一般以分钟为单位,也就是说处理实时数据的延迟时间是秒级别的;Storm处理数据的方式是以条为单位,一条一条处理的,Storm是一个实时流处理框架,处理响应是毫秒级的。由于二者的处理速度和响应速度都很快,因而对集群资源配置的要求都比较高。

(3)数据呈现方式的可视化需求。信息化时代,用户很少关心自己的数据是如何被分析处理的,只希望能随时随地、直观方便地看到处理结果,而大数据时代的数据处理也会是海量的,高清的图表图像能直观清晰的展示有效信息,这种新的可视化需求对计算机的结构提出了挑战。

2.3 大数据为高级持续威胁(APT)提供了新平台

APT(Advanced Persistent Threat)的主要特征:隐蔽能力强、潜伏期长、攻击路径和渠道不确定、威胁性大。APT攻击一直是网络攻击的主要手段,也是大数据时代需要解决的最复杂的信息安全问题之一。反过来,大数据分析技术又为对抗APT攻击提供了新的解决手段。为了对抗APT攻击,必须以大数据的处理技术为基础,研发对抗APT攻击的检测手段和防御产品,提升安全审计方案的安全性能,比如实时监测能力和事后监测能力的提升,溯源并定位APT攻击过程等。

2.4 大数据技术的过快发展带来新的安全问题

大数据本身存在着一定的安全漏洞,黑客技术也在不断的进步,这就导致了大数据的安全问题日益显著。2017年5月发生了全球性勒索病毒事件,该病毒对计算机内部的程序和文档等资源实施高强度的加密锁定,让用户无法访问自己的文档,并以此为要挟向用户索取以比特币支付的赎金,短短5天时间,全球约304.1万个IP地址遭受攻击,其中我国境内的IP地址数量约有9.4万个。

3 大数据背景下的安全策略研究

3.1 数据备份技术和数据恢复技术

针对大数据的特点,采用多级别的数据备份方案能有效防范数据的丢失。例如腾讯云存储团队提出了多级别的“容灾”解决方案,其中磁盘级别、服务器级别、集群级别这三类容灾方案能够在数据中心的事故发生之前避免问题,而机房级别容灾和跨地域容灾,则保证了事故发生后的问题解决。

但是,数据的多重备份又会带来存储成本的增加,因此各大企业和组织都使用了重复数据删除技术和自动精简配置技术来降低成本。重复数据删除的核心思想是通过块级的比对,将重复的数据块删掉,只留下单一实例,从而有效释放冗余的存储空间,从客观上增加了存储容量,降低了存储成本。

目前企业存储主要面临几个问题:第一,如何削减开支以应对不断增加的数据存储成本;第二,数据存储容量的爆炸性增长,且增长速度难以预估;第三,如何进行有效的数据管理以面对日益复杂的网络环境。针对这些问题,目前业界有几个不同的发展方向:一是通过分散化的存储方式提升数据的安全存储等级;二是建立安全集中式管理平台保证大数据的安全有效管理,比如Hortonworks推出的开源项目Apache Ranger[5] 在解决授权和审计等问题的同时,还能非常全面地为用户提供Hadoop生态圈的集中安全策略管理。这样,各种不同的个人用户和组对文件以及相关数据等都可以得到有差异的访问策略,同时负责运行和维护的管理人员还能审计对数据源的访问。

3.2 差分隐私技术

差分隐私 [6] 技术是目前大数据安全研究的一项重要技术,其原理是使用隐私算法对用户数据进行干扰,使之无法回溯到个人,通过对数据进行批量分析而得出一定规模的趋势规律,既保护了用户的隐私,还能提取到一些通用信息以便机器学习。因此,合理的差分隐私算法可以保证攻击者获取几乎无用的个人信息,而算法关键是隐私参数ε,该参数直接决定了差分隐私的效率,进一步保证了数据安全。目前,苹果和谷歌分别在iOS和Chrome中使用了差分隐私技术,差分隐私算法也已经在隐私保护分析产品中实现,但是谷歌和苹果都没有公布在他们各自的差分隐私保证中所用到的ε值。因此,合理设计ε值是大数据安全研究中的重要方向。

3.3 建立安全的大数据应用体系

任何一个安全可靠的大数据系统,不仅要保证数据流的源头是安全可靠的,更要保证数据分析过程乃至最后有价值的输出都是安全可信的,因此需要规范化的管理运行机制,同时,根据现有Hadoop和大数据生态圈的各自需求,挑选合适的组件并进行有效的整合,从而构建一个功能强大的系统平台,足够支撑多种查询,提供多种分析功能。在此系统中,既要选择合理的数据存储方案,也要分析和权衡线上线下数据分离的有效处理方法。因此,一个安全的大数据应用体系,需要在数据访问、存储、传输、销毁等各环节进行安全控制 [7] 。例如在数据访问控制方面,明确制定访问权限,包括对数据使用者的认证控制、授权控制等,同时对使用日志进行审计。在存储数据时,通过加密的数据流,在上传和下载中都能得到有效的保护;通过分离密钥和加密数据,把数据使用和数据保管进行有效分离。对支持数据传输的基础设施,既要进行严格的物理和环境安全控制,同时配备强有力安全漏洞检测服务,确保软硬件基础设施的安全稳定。

大数据系统框架的合理设计不仅不会带来大的安全隐患,还会给企业和组织带来更大的利润和前景。通过精细完整的设计,修改并完善传统的系统安全解决方案,运用于新的大数据系统集。一个完整的企业级安全框架应该包含的五个组成部分。

3.4 构建安全的大数据信息体系

当今的网络安全形势变幻莫测,网络攻击是主要手段。如果不了解整个网络的安全形势和国内外安保情况,相关职能部门和责任组织就会对正在发生的网络攻击事件毫无察觉,因此构建安全的大数据信息体系是解决网络安全的基础条件,这就要求相关责任组织既要建立安全无死角的内部网络系统,更要收集安全有效的全球数据。

(1)构建安全可靠的内部网络系统。任何一个网络被控制,都是先攻击内网的一个终端或者服务器,再由内网的终端或服务器作为源头发起新的攻击。因此,使用全面的网络收集技术并构建安全的大数据内网系统,让所有数据都处于监视之下,无处遁形。全面收集从终端或服务器到其他网络的所有数据,才能形成安全的大数据系统。

(2)充分利用全球情报进行更安全更及时的数据保护。发生在一个企业的网络攻击事件,绝不是全世界的唯一,很可能在另外一个地方已经使用过同样的网络攻击样本或者方法,如果通过网络安全公司和全球情报网络及时获取了相关警报,就能及时有效地防范相同的网络攻击出现在自己的网络里。

3.5 开发大数据的实时分析引擎,建立APT攻击的防范规范

通过对云计算、人工智能、统计学等多领域的融合,在第一时间挖掘出APT攻击、非法操作、潜在威胁等事件并及时做出响应。APT攻击防范策略包括防范社会工程、通过全面采集行为记录避免内部监控盲点、IT系统异常行为检测等。例如2015华为公司推出了APT大数据安全解决方案,其核心要点是保护企业的核心信息资产。通过使用FireHunter[8] 系列安全沙箱、CIS网络安全智能系统、USG6000V系列软件防火墙等产品,覆盖了“端、管、云”全联接的网络防护,有效防范APT攻击带来的威胁。

4 结束语

数据开放与共享涉及到很多问题,比如数据跨境流动和数据主权、数据开放中的隐私保护、数据安全保障及其政策、框架、体系等,本文主要从大数据带来的新风险和挑战为出发点,分析了传统数据安全和大数据安全研究的联系与区别,着重研究了大数据背景下的安全策略问题。这些问题的有效处理和把握将会推动数据开放和共享的进一步有效实施。

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: