大数据时代的挑战

来源:中国计算机报
关键字:大数据,PB,摩尔
发布时间:2014-06-16 12:42

　　中国工程院院士李德毅：在互联网环境下，利用人的认知和大众之间的交互，融合计算机群组对大数据的价值挖掘，形成群体智能。由此，我们提出了一个新概念“众挖”。用户不再需要关心数据的形态、获取位置、结构模式、存储方式和分析过程，就能够获得足够满意的挖掘结果。

　　我们在大数据时代面临着什么样的挑战，今天我就讲讲这个问题。

　　大数据通常来自三个方向：自然大数据、生命大数据和社交大数据。PB时代是对科学的挑战，更是对包括数据挖掘在内的认知科学的挑战，也是对软件工程的挑战。

　　尤其是社交大数据。在奥巴马就职的现场有这么多面孔，每一个面孔下都有一个故事。人脸是数据安全很重要的识别器。那么，怎么识别呢？人们想到了摄像头，北京市约有80万个摄像头，我们每天都在摄像头的监督下开车、购物等。

　　“谁？是他吗？”这是社交网络中基本的问题。我们要确定一个人，通常需要从身份认证、年龄识别、情感计算、亲缘发现、性别识别、地区和民族识别等方面进行辨识。

　　结构化数据面临挑战

　　我们认为计算在过去的20年里起到了主导作用，它的标志就是摩尔速度。跟这个时代相对应的是结构化数据，“软件”加“程序”加“数据”加“存档”，这个数据应该是结构化数据才能运行起来。

　　结构化数据的典型代表就是关系数据库。1970年，伟大的科学家埃德加·弗兰克·科德教授提出关系模型，以关系代数为核心运算，用二维表形式表示实体和实体间联系，通过关系运算实现结构化查询。30多年来，各行各业的数据库和数据仓库技术，以及从数据库发现知识的数据挖掘构筑起巨大的信息处理产业。

　　关系代数是关系数据库的形式化理论和约束。关系数据库有严格的顶层设计。为构造良式关系，必须消除元组中不合适的数据依赖，通过第三范式（BCNF）甚至约束度更高的范式，分解数据表，以解决插入异常、删除异常和数据冗余等问题。对这样的关系进行运算，运算结果仍然是关系，运算符可以是集合运算、算术运算、逻辑运算，或者关系运算。只要数据在关系数据库中，用户总可以通过SQL语言将满足条件的唯一结果挖掘出来，无需关心数据的获取、存储、分析和提取过程，更无需关心数据结构的内部组织形式。

　　但是，结构化数据仍然面临着一些挑战：挑战一，形式化约束过于苛刻，无法表示原生态数据；挑战二，随着数据量的增大，关系代数运转的性能急剧下降。

　　在计算时代，人们发现，这种摩尔速度下的存储也有很大的发展。尤其随着存储材料和存储技术的发展，市场上500元就能买到1TB的硬盘，这是我们以前不可想象的。存储技术在交互方面的发展，让我们有了存储的网络和阵地。于是，整个社会进入了半结构化的数据阶段。而半结构化数据的典型特征是超文本、超链接、超媒体，其组成形式是C/S、B/S和云计算。

　　万维网（World Wide Web）之父Tim Berners-Lee，是把超文本技术引入互联网的第一人。1989年，他开发出世界上第一个Web服务器和Web客户机。1991年，Web实现了通过超文本方式，使网络中不同计算机内的信息实现超链接，通过超文本传输协议HTTP从一台Web服务器转到另一台Web服务器上检索。另外，服务器在软件支持下可以发布包括文本、表格、图片、音频和视频等碎片化的超媒体信息。而E-mail、 Telnet、 FTP、 WAIS 等都可以通过Web服务实现。从此开始了Web纪元，人类进入搜索时代。

　　我们看到，数据围绕实体，实体围绕链接转。挖掘就是云环境下的探索和个性化服务，没有死板的查询方式，也没有唯一的结果，挖掘结果允许带有不确定性，重视探索的统计性质。现在的挖掘已经延伸到了图片和语音的搜索，这类搜索引擎的出现也带来了互联网上繁荣的内容服务。

　　移动互联网的大数据挖掘

　　现在，我们处在网络化和交互的时代。移动互联网时代的大数据挖掘，主要是网络环境下的非结构化数据挖掘。这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据，而这些原生态数据的特点常是低价值的、强噪音、并购、冗余的冷数据。

　　同时，移动互联网大数据挖掘过程中，数据的简约具有各自适应性。长期以来，我们用认知物理学方法来实现数据的自适应简约。我们在国内外第一次提出了数据场的思想。把人脸变成数据场，大家可以看到这张人脸跟其他人的脸是有相似之处的，可以用线性的方法也可以用非线性的方法来表现。

　　举例来说，如果想突出眼睛、鼻子和嘴巴，我们可以用这种数据场的方法来突出。用物理学中“场”的方法来类比形成数据场，像素之间相互影响越小，特征点个数越多，图像的描述细节越多，反之特征点个数越少。

　　百度用深度学习的方法实现了数据自适应简约，我们觉得他们跟我们现在做的是非常一致的，例如，百度搜图做的人脸相似性搜索。当前的情况是，数据量急剧增加，组织结构已经围绕数据转了，程序碎片化可以随时重组，挖掘常常是人机交互环境下不同社区的发现。

　　社区可以给我们提供数据实物。网络化大数据挖掘的方法是社区发现。人们最关心的是社区，并且我们关心社区中的交互。社区交互表现的形式有显性和隐性两种形式。显性形式有评论、心情、收集、购买、评分、顶、踩、分享、加为好友、邀请加入等，而隐性形式有跳转等。我们利用拓扑势方法挖掘社区，并且发现社区成员的重要性及成员角色。现实生活中经过一段时间的反复、交互、汇聚，修正和演化，群体形成趋于相对稳定的共识。

　　云计算支撑大数据挖掘

　　云计算是基于互联网大众参与的计算模式，其计算资源、存储能力、交互能力是动态、可伸缩和被虚拟化的。端产品摆脱了传统IT配置带来的系统升级开销，其特点是更加简洁、灵活、多样、个性化。手机、游戏机、数码相机、电视机、上网本、笔记本电脑等功能交叉，差别细微，出现更多iCloud产品。界面人性化、个性化，可随时变换成为各种各样的大数据发生器，或者虚拟遥控器，或者大数据挖掘终端。

　　大数据挖掘和云计算在支撑着各种各样的大数据应用。于是，软件工程出现了巨大的变化，通过众包细分法，完成云环境下的社会生产。在互联网环境下，利用人的认知和大众之间的交互，融合计算机群组对大数据的价值挖掘，形成群体智能。由此，我们提出了一个新概念“众挖”。用户不再需要关心数据的形态、数据的获取位置、结构模式、存储方式和分析过程，就能够获得足够满意的挖掘结果。

　　大数据标志着新时代的到来，这个时代的特征不只是追求丰富的物质资源，也不只是互联网带来的便利，它还包含区别于物质的数据资源的价值挖掘和价值转换，以及由大数据给金融行业带来的很多思考，同时还有由大数据挖掘带来的精神和文化方面的崭新现象。

　　（本文根据李德毅院士发言整理，未经本人确认）

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容