大数据及其带来的安全挑战

来源:客户世界
关键字:大数据,安全
发布时间:2014-12-17 16:16

　　当今，社会信息化和网络化的发展导致数据爆炸式增长，大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner预测，到2016年全球在大数据方面的总花费将达到2320亿美元。不仅如此，作为国家和社会的主要管理者，各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data.gov网站，向公众开放政府所拥有的公共数据。随后，英国、澳大利亚等政府也开始了大数据开放的进程。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。在我国，2012年中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会，为我国大数据应用和发展提供学术咨询。

　　目前大数据的发展仍然面临着许多问题，安全与隐私问题是人们公认的关键问题之一。当前，人们在互联网上的一言一行都掌握在互联网商家手中，包括购物习惯、好友联络情况、阅读习惯、检索习惯等等。多项实际案例说明，即使无害的数据被大量收集后，也会暴露个人隐私。事实上，大数据安全含义更为广泛，人们面临的威胁并不仅限于个人隐私泄漏。与其它信息一样，大数据在存储、处理、传输等过程中面临诸多安全风险，具有数据安全与隐私保护需求。而实现大数据安全与隐私保护，较以往其它安全问题（如云计算中的数据安全等）更为棘手。这是因为在云计算中，虽然服务提供商控制了数据的存储与运行环境，但是用户仍然有些办法保护自己的数据，例如通过密码学的技术手段实现数据安全存储与安全计算，或者通过可信计算方式实现运行环境安全等。而在大数据的背景下，Facebook等商家既是数据的生产者，又是数据的存储、管理者和使用者，因此，单纯通过技术手段限制商家对用户信息的使用，实现用户隐私保护，是极其困难的事。

　　当前很多组织都认识到大数据的安全问题，并积极行动起来关注大数据安全问题。2012年云安全联盟CSA组建了大数据工作组，旨在寻找针对数据中心安全和隐私问题的解决方案。本文在梳理大数据研究现状的基础上重点分析了当前大数据所带来的安全挑战，需要指出的是，大数据在引入新的安全问题和挑战的同时也为信息安全领域带来了新的发展契机，即基于大数据的信息安全相关技术可以反过来用于大数据的安全和隐私保护。

　　一、大数据研究概述

　　1、大数据来源与特征

　　普遍的观点认为，大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集。大数据的常见特点包括大规模(volume)、高速性(velocity)和多样性(variety)。根据来源的不同，大数据大致可分为如下几类：

　　（1）来自于人。人们在互联网活动以及使用移动互联网过程中所产生的各类数据，包括文字、图片、视频等信息；

　　（2）来自于机。各类计算机信息系统产生的数据，以文件、数据库、多媒体等形式存在，也包括审计、日志等自动生成的信息；

　　（3）来自于物。各类数字设备所采集的数据。如摄像头产生的数字信号、医疗物联网中产生的人的各项特征值、天文望远镜所产生的大量数据等。

　　2、大数据分析目标

　　目前大数据分析应用于科学、医药、电信、商业等各个领域，用途差异巨大，但其目标可以归纳为如下几类：

　　（1）获得知识与推测趋势

　　人们进行数据分析由来已久，最初且最重要的目的就是获得知识、利用知识。由于大数据包含大量原始、真实信息，大数据分析能够有效地摒弃个体差异，帮助人们透过现象、更准确地把握事物背后的规律。基于挖掘出的知识，可以更准确地对自然或社会现象进行预测。典型的案例是Google公司的Google Flu Trends网站，它通过统计人们对流感信息的搜索，查询Google服务器日志的IP地址判定搜索来源，从而发布对世界各地流感情况的预测。又如，人们可以根据Twitter信息预测股票行情等。

　　（2）分析掌握个性化特征

　　个体活动在满足某些群体特征的同时也具有鲜明的个性化特征，正如“长尾理论”中那条细长的尾巴那样，这些特征可能千差万别。企业通过长时间、多维度的数据积累，可以分析用户行为规律，更准确地描绘其个体轮廓，为用户提供更好的个性化产品和服务，以及更准确的广告推荐。例如Google通过其大数据产品对用户的习惯和爱好进行分析，帮助广告商评估广告活动效率，预估在未来可能存在高达到数千亿美元的市场规模。

　　（3）通过分析辨识真相

　　错误信息不如没有信息。由于网络中信息的传播更加便利，所以网络虚假信息造成的危害也更大。例如，2013年4月24日，美联社Twitter帐号被盗，发布虚假消息称总统奥巴马遭受恐怖袭击受伤。虽然虚假消息在几分钟内被禁止，但是仍然引发了美国股市短暂跳水。由于大数据来源广泛及其多样性，在一定程度上它可以帮助实现信息的去伪存真。目前人们开始尝试利用大数据进行虚假信息识别。例如，社交点评类网站Yelp利用大数据对虚假评论进行过滤，为用户提供更为真实的评论信息；Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。

　　3、大数据技术框架

　　大数据处理涉及数据的采集、管理、分析与展示等。

　　（1）数据采集与预处理

　　大数据的数据源多样化，包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据。因此，大数据处理的第一步是从数据源采集数据并进行预处理操作，为后继流程提供统一的高质量的数据集。

　　由于大数据的来源不一，可能存在不同模式的描述，甚至存在矛盾。因此，在数据集成过程中对数据进行清洗，以消除相似、重复或不一致的数据是非常必要的。文献中数据清洗和集成技术针对大数据的特点，提出非结构化或半结构化数据的清洗以及超大规模数据的集成。

　　数据存储与大数据应用密切相关。某些实时性要求较高的应用，如状态监控，更适合采用流处理模式，直接在清洗和集成后的数据源上进行分析。而大多数其它应用则需要存储，以支持后继更深度的数据分析流程。为了提高数据吞吐量，降低存储成本，通常采用分布式架构来存储大数据。这方面有代表性的研究包括：文件系统GFSE、HDFS和Haystack等；NoSQL数据库Mongodb、CouchDB、HBase、Redis、Neo4j等。

　　（2）数据分析

　　数据分析是大数据应用的核心流程，根据不同层次大致可分为3类：计算架构、查询与索引以及数据分析和处理。

　　在计算架构方面，Map Reduce是当前广泛采用的大数据集计算模型和框架。在查询与索引方面，由于大数据中包含了大量的非结构化或半结构化数据，传统关系型数据库的查询和索引技术受到限制，而NoSQL类数据库技术得到更多关注。在数据分析与处理方面，主要涉及的技术包括语义分析与数据挖掘等。由于大数据环境下数据呈现多样化特点，所以对数据进行语义分析时，就较难统一术语进而挖掘信息。

　　（3）数据解释

　　数据解释旨在更好地支持用户对数据分析结果的使用，涉及的主要技术为可视化和人机交互。目前已经有了一些针对大规模数据的可视化研究，通过数据投影、维度降解或显示墙等方法来解决大规模数据的显示问题。由于人类的视觉敏感度限制了更大屏幕显示的有效性，以人为中心的人机交互设计也将是解决大数据分析结果展示的一种重要技术。

　　（4）其它支撑技术

　　虽然大数据应用强调以数据为中心，将计算推送到数据上执行，但是在整个处理过程中，数据的传输仍然是必不可少的，例如一些科学观测数据从观测点向数据中心的传输等。

　　此外，由于虚拟集群具有成本低、搭建灵活、便于管理等优点，人们在大数据分析时可以选择更加方便的虚拟集群来完成各项处理任务，因此需要针对大数据应用展开的虚拟机集群优化研究。

　　二、大数据带来的安全挑战

　　科学技术是一把双刃剑。大数据所引发的安全问题与其带来的价值同样引人注目。与传统的信息安全问题相比，大数据安全面临的挑战性问题主要体现在以下几个方面。

　　1、大数据中的用户隐私保护

　　大量事实表明，大数据未被妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同，隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。

　　人们面临的威胁并不仅限于个人隐私泄漏，还在于基于大数据对人们状态和行为的预测。一个典型的例子是某零售商通过历史记录分析，比家长更早知道其女儿已经怀孕的事实，并向其邮寄相关广告信息。而社交网络分析研究也表明，可以通过其中的群组特性发现用户的属性。例如通过分析用户的Twitter信息，可以发现用户的政治倾向、消费习惯以及喜好的球队等。

　　目前用户数据的收集、存储、管理与使用等均缺乏规范，更缺乏监管，主要依靠企业的自律，用户无法确定自己隐私信息的用途。而在商业化场景中，用户应有权决定自己的信息如何被利用，实现用户可控的隐私保护。例如用户可以决定自己的信息何时以何种形式披露，何时被销毁。包括：①数据采集时的隐私保护，如数据精度处理；②数据共享、发布时的隐私保护，如数据的匿名处理、人工加扰等；③数据分析时的隐私保护；④数据生命周期的隐私保护；⑤隐私数据可信销毁等。

　　2、大数据的可信性

　　关于大数据的一个普遍的观点是，数据自己可以说明一切，数据自身就是事实。但实际情况是，如果不仔细甄别，数据也会欺骗，就像人们有时会被自己的双眼欺骗一样。

　　大数据可信性的威胁之一是伪造或刻意制造的数据，而错误的数据往往会导致错误的结论。若数据应用场景明确，就可能有人刻意制造数据、营造某种“假象”，诱导分析者得出对其有利的结论。由于虚假信息往往隐藏于大量信息中，使得人们无法鉴别真伪，从而做出错误判断。例如，一些点评网站上的虚假评论混杂在真实评论中而使得用户无法分辨，可能误导用户去选择某些劣质商品或服务。由于当前网络社区中虚假信息的产生和传播变得越来越容易，其所产生的影响不可低估。用信息安全技术手段鉴别所有来源的真实性是不可能的。

　　大数据可信性的威胁之二是数据在传播中的逐步失真。原因之一是人工干预的数据采集过程可能引入误差，由于失误导致数据失真与偏差，最终影响数据分析结果的准确性。此外，数据失真还有数据的版本变更的因素。在传播过程中，现实情况发生了变化，早期采集的数据已经不能反映真实情况。例如，餐馆电话号码已经变更，但早期的信息已经被其它搜索引擎或应用收录，所以用户可能看到矛盾的信息而影响其判断。

　　因此，大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等，了解各项数据可信度，防止分析得出无意义或者错误的结果。

　　密码学中的数字签名、消息鉴别码等技术可以用于验证数据的完整性，但应用于大数据的真实性时面临很大困难，主要根源在于数据粒度的差异。例如，数据的发源方可以对整个信息签名，但是当信息分解成若干组成部分时，该签名无法验证每个部分的完整性。而数据的发源方无法事先预知哪些部分被利用、如何被利用，难以事先为其生成验证对象。

　　3、如何实现大数据访问控制访问控制是实现数据受控共享的有效手段。由于大数据可能被用于多种不同场景，其访问控制需求十分突出。

　　大数据访问控制的特点与难点在于：（1）难以预设角色，实现角色划分。由于大数据应用范围广泛，它通常要为来自不同组织或部门、不同身份与目的的用户所访问，实施访问控制是基本需求。然而，在大数据的场景下，有大量的用户需要实施权限管理，且用户具体的权限要求未知。面对未知的大量数据和用户，预先设置角色十分困难。

　　（2）难以预知每个角色的实际权限。由于大数据场景中包含海量数据，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其所可以访问的数据范围。而且从效率角度讲，定义用户所有授权规则也不是理想的方式。

　　此外，不同类型的大数据中可能存在多样化的访问控制需求。例如，在Web2.0个人用户数据中，存在基于历史记录的访问控制；在地理地图数据中，存在基于尺度以及数据精度的访问控制需求；在流数据处理中，存在数据时间区间的访问控制需求，等等。如何统一地描述与表达访问控制需求，也是一个挑战性问题。

　　三、数据安全管理

　　中国移动通信集团对于大数据安全的重点是业务运营、系统维护中的敏感数据防护，即针对含有敏感信息的业务数据的访问、使用、传输、转换、运维过程中对操作行为动机、身份、权限、渠道的管控。业务支撑信息安全体系建设以安全管理平台和4A平台为技术核心，分解为应用安全、数据安全、接入安全、网络安全、人员安全、流程安全、基线安全和物理安全，其中数据安全作为信息安全的重要组成部分。

　　业务支撑系统用户量最大的是前台应用人员，包括营业客服、电子渠道代理商用户，还包括公司内部经营分析用户，应用系统中包含有大量客户敏感客户信息、公司经营的核心数据，此部分涉及用户群比较复杂，是敏感数据管控的重点区域。

　　首先应用系统通过接入4A平台，实现对访问用户身份强认证，通过系统权限最小化原则对用户进行权限管理。针对用户敏感信息实现了数据脱敏操作，普通操作权限用户无法直接获取用户有价值信息，如姓名、身份证信息等，保证最大范围的普通用户无法直接获取用户的敏感信息；前台应用系统记录用户的操作行为形成统一接触审计数据，如果涉及用户信息泄露可以通过接触日志进行审计和追溯。通过以上管控，基本保证了应用级别的数据安全，可以达到应用敏感数据可控、可告警、可追溯、可审计的安全效果，保护了用户的隐私。

　　当前电信基础网络作为业务运营与数据交流的载体，而业务数据安全将成为影响服务质量、业务竞争力、可持续发展、企业社会形象的重要因素。为落实电信行业监管部门以及集团公司提出的数据安全管理要求，通信企业正在确定业务数据安全的发展及规划，以敏感业务信息防护为重点的大数据安全越发成为信息安全建设的重中之重。

　　四、小结

　　大数据带来了新的安全问题，但它自身也是解决问题的重要手段。本文从大数据的隐私保护、信任、访问控制等角度出发，梳理了当前大数据安全相关技术。总体上来说，当前国内外针对大数据安全的相关研究还不充分，只有通过技术手段与相关政策法规等相结合，才能更好地解决大数据安全问题。

　　张利国

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容