云计算、大数据与Hadoop

  • 来源:计算机世界
  • 关键字:云计算,大数据,Hadoop
  • 发布时间:2011-10-28 10:08
  美国奥巴马总统委员会的科学技术顾问Stephen Brobst说:“过去3年里产生的数据量比以往4万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,常规技术已经难以应对Pb级的大规模数据量。”Neol and Associates公司的著名分析师Mike Karp指出,目前越来越多的企业采用Hadoop来存储和分析大数据。

  美国《经济学人》2010年报道,沃尔玛的数据量是美国国会图书馆的167倍;eBay的分析平台每天处理的数据量高达100PB,超过纳斯达克交易所每天的数据处理量。根据IDC数据,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB;截止到2010年,电子数据存储量已经达到了120万 PB,或1.2ZB。非结构化信息如文件、电子邮件和视频,将占未来10年新生数据的90%。Gartner也指出,传统数据库在数据增长如此迅猛的当下远不能胜任。

  Hadoop分布式并行计算框架,是Apache的开源项目,已有7年的历史。Hadoop 的核心是HDFS分布式文件系统和MapReduce(映射与归约)计算模型,MapReduce的思想来自于谷歌2004年发表的一篇论文。

  HDFS分布式文件系统将一组数据分发给不同的机器并且提供冗余处理。比如,可以对每一个数据在3个不同的节点上进行复制,一旦一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。MapReduce计算模型中的Map将一个任务分解为多个任务,产生特征数据,Reduce将多个执行结果汇总得到最终结果。

  2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据排序 ,比上一年的纪录保持者快了将90秒。2009年5月,进一步将时间缩短到62秒。2007年,百度开始部署Hadoop用作日志处理。2008年,淘宝部署基于Hadoop的云梯。云梯1的总容量大概为9.3PB,1100台机器,每天处理约18000道作业,扫描500TB数据。Facebook、Linkedin、Amazon,、EMC、eBay、Twitter、IBM、Microsoft,、Apple、 HP等都已是Hadoop的用户。

  在产业方面,IBM提供基于Hadoop 的大数据分析软件,推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统,并提供Hadoop的部署与实施服务。EMC于2011年5月,推出基于Hadoop数据中心设备——GreenPlum HD。2008年,微软收购Powerset,并将Powerset基于Hadoop的技术应用于搜索引擎bing搜索引擎。

  Ventana Research公司分析师David Menninger认为,企业将显著提升对于开源软件Hadoop框架的兴趣,未来将有更多的供应商和更多的生产商加入Hadoop行列。

  由此,我们就可以看出这样一个脉络:云计算必须支持大数据,面向大数据处理的新一代技术Hadoop已经浮出水面并日趋流行。

  孙定
关注读览天下微信, 100万篇深度好文, 等你来看……