赢在大数据

  • 来源:计算机世界
  • 关键字:Vpon威朋,大数据,移动App
  • 发布时间:2012-09-12 14:23

  导语:如果说传统的商业智能为我们打开了通往智慧世界的一扇窗的话,那么,大数据将为我们开启的就是一道通往智慧世界的大门。

  在这个世界里,我们洞悉业务运营的每一个过程;

  在这个世界里,我们充分了解我们自己和我们的客户;

  在这个世界里,我们的决策不再是拍脑袋,决策理性而且科学。

  成立于2008年的Vpon威朋是一家移动广告公司,其主营业务之一是接受广告主委托在其合作方推出的移动App上发布广告。上个月Vpon威朋推出了一款名为3S(Sales Supporting System)的系统广告分析系统,这是一套建立在Hadoop平台上的大数据挖掘、分析及处理系统。这套系统的最大作用是能精确地统计和分析用户点击移动应用的时间、地点和各种偏好,从而帮助广告主做出最有效的广告投放决策。成立于2009年的北京百分点信息科技有限公司(以下称百分点)也在做与Vpon威朋类似的事情。百分点推出了一种名为个性化搜索引擎的工具,电子商务网站可以利用它来分析访客的点击行为,找出访客的偏好,进行产品推荐。同样,这个搜索引擎也是基于Hadoop开发。

  近几年来,在互联网领域像Vpon威朋、百分点这样利用Hadoop等大数据相关技术进行访客点击行为分析,来开展业务的公司越来越多,其中有一大批是对新兴技术敏感的初创公司,同时也不乏像Google、Facebook这样著名的互联网公司。

  事实上,“大数据”这股发端于互联网企业的数据分析热潮如今已经超出了互联网领域,部分敢于“尝鲜”的传统企业已经开始部署大数据相关技术,市场增长非常迅猛。根据IDC最新发布的全球大数据市场预测,大数据市场将从2010年的32亿美元增长至2015年的169亿美元,年复合增长率将达到40%。对市场前景的良好预期吸引投资者们纷纷投身其中,目前对于大数据的风投资金已超过5亿美元:去年年底Hadoop版本的主要发布者Cloudera获得4000万美元投资;Cloudera的竞争对手,另一个Hadoop版本发布者——MapR获得了2500万美元的投资;NoSQL数据库厂商10Gen(MongoDB的供应商)和DataStax(Cassandra的供应商)分别获得了3200万美元和1100万美元的融资;今年4月刚刚在纳斯达克进行IPO,融资2.3亿美元……这个名单可以列得很长。

  很显然,在市场研究机构和投资者看来,大数据市场现在是如日中天,其热度甚至大有盖过云计算之势。与此同时,“大数据是大忽悠、大谎言”的说法也不绝于耳。纷纷扰扰的市场宣传中,我们究竟该如何认识大数据,大数据到底是大机遇还是大骗局?

  迎来大数据时代

  大数据与数据的爆炸性增长有着密切关系。根据IDC的研究,2010年底全球新生成的数据量已经达到120万PB(或1.2 ZB),这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回(从地球到月球大约24万英里)。IDC预计,到2020年需要存储的数据量将达到35万亿GB,是2010年数据存储量的42倍。

  今天的中国是数据生产的大国。还是IDC提供的数据,截止到2012年6月,中国有近3.9亿的移动客户、5.3亿的互联网客户。在一个比较典型的二级城市中,每个季度就可能产生出200PB的视频数据。

  应该说,我们面对的挑战不只是海量数据,还包括越来越繁多的数据格式,特别是非结构化和半结构数据量远远超过传统的结构化数据。研究表明,如今新增数据中80%以上是诸如日志、图片、视频、电子邮件等非结构化或半结构化的数据。这些数据都不能(或者不适合)用传统方法处理,需要有新的思考、新的作为,而这种技术就是大数据。

  不过,对于什么是大数据至今并没有明确而且一致的定义。目前关于大数据有两个不同的理解,一个是认为它是一系列的技术,通过这些技术对大量的结构化和非结构化数据进行处理,从而获得各种分析和预测结果;另一个,也是更多的人理解是,简单地称海量的数据集为大数据,本文采用后一种认识。

  虽然缺乏对大数据明确的定义,但对大数据三个“V”基本特征各方却是颇有共识,即海量的数据规模(volume)、快速的数据流转(velocity)、多样的数据类型(variety)。这其中,“海量”是大数据引发人们广泛关注的前提,而快速和复杂的数据类型则是引发人们广泛关注的关键。

  大数据从何而来

  谈到大数据,不得不谈到移动设备。因为我们面对的大数据除了来自企业应用、运营的数据以及供应链、供应商产生的各种各样的数据,还有很大一部分来自社交媒体以及移动应用,而移动智能设备就是背后最大的推手之一。

  众所周知,智能移动设备的普及给社会带来诸多变化。其中之一就是人们可以在任何时间、任何地点获取信息,能够实时通信、实时协作、发布社交内容。这就使得数据的生产方式发生了变化:过去,我们只是在工作时产生数据,而今我们几乎是每时每刻都在生产数据;过去,数据都是交易型,典型的表现形式为一条条交易记录,这是传统数据库所擅长的,而如今,数据以非结构化为主,而且数据源众多,很多数据不再是由人而是由机器产生的,各种各样的RFID、传感器几乎时时都在生成数据。另外,即使是人为产生的,如社交网络、微博,数据的形式和过去的形式也不一样,主要表现为非结构化。

  “数据量的增加已经远远超出预期,而且企业目前面临的还是一个更加复杂的数据环境。在这样一个环境中,企业要获得传统财务或者财务以外的信息分析能力,需要新的方法。这就是大数据热的大背景。”Forrester Research资深分析师曹宇钦在不久前举办的大数据论坛演讲时表示。

  面对如此海量、复杂的数据,需要存储、需要管理,更需要分析,这就引发了人们对大数据的极大关注,而在VMware全球高级副总裁范承工看来,事情变复杂的还有另外两个因素,“之所以有今天的大数据话题,除了数据产生,更还包括云应用的普及,以及数据的使用者发生了变化。”

  范承工在VMware内部领导一个数据部门从事相关产品的开发,包括支持Hadoop在虚拟化环境中的快速部署插件等。范承工解释说,云应用的普及改变了过去单一的数据位于数据中心的形式,越来越多的数据被保存在企业防火墙外的公有云中,使得数据整合成为难题;同时,数据使用者也从最初主要面向管理者、高级经理到逐渐普及到一般业务人员,这就要求获得分析结果的方式更简单、更灵活,支持的用户更多了。

  数据库不能承受之重

  应该说,数据分析或者商业智能我们并不陌生。先建立数据仓库,然后通过数据建模来完成数据分析和挖掘,这个套路已经存在了20多年来。为什么现在不灵了?为什么要用Hadoop?

  中科院计算所副研究员、Hadoopin China开源社区发起人查礼博士认为, Hadoop等新大数据技术流行最重要的原因在于,多年来建立在数据仓库之上的商业智能是面向以结构化数据为主的场景,它采用的是一种集中式、纵向扩展(Scale-up)架构,主要面对的是少量用户的非实时性查询需求和报表需求,一旦将其应用于处理海量、非结构化数据时,不管是性能还是可扩展性都面临瓶颈。比如,对于传统数据库和数据仓库而言,PB级数据尚能应对,面对更大数据量的处理时就面临性能瓶颈。另外,传统的数据仓库系统建设周期短则几个月,长则一年,用户得到回报的周期太长。

  “与之相反,后期之秀的Hadoop和以MongoDB为代表的NoSQL数据库天生就是为应对海量数据而设计的,它们采用的是分布式架构,对数据的处理是以一种可靠、高效、可伸缩的方式进行处理的,可以很容易地根据数据量和用户需求按需动态地扩展,而且是以一种横向扩展(Scale-out)方式进行,这种特殊的软件架构设计使其可以轻松应对TB级的数据存储和分析需求。”查礼表示。

  以中国联通推出的基于Hadoop的移动用户上网记录查阅系统为例,这是一个为满足3G客户数据流量查询需求、解决计费争议而推出的系统,架构在英特尔Hadoop发行版之上,用户可自助快速查询自己的上网记录。据中国联通研究院副院长黄文良介绍,用户上网行为记录是一个海量的数据集,比如用户每登录一个网页(如访问新浪首页)就会产生20多条记录,随着用户的增加而产生的海量数据增长很快,如果采用传统数据库就会遇到问题。

  “在采用Hadoop之前,我们曾试过采用数据库,但后来发现关系型数据库存储数据量到百亿条时就有些困难,一次查询可能几个小时都出不来结果。”黄文良说。

  用户偏向Hadoop的另一个重要原因在于这一数据处理平台的高性价比,这一点对于草根出生的互联网企业尤为重要。事实上,从理论上而言,如果不考虑成本,采用传统方式也能处理大数据。

  “传统数据库方式也是能解决大数据问题的。只是实践中,我们必须要考虑成本的问题,包括投入多少资金、解决多大容量的数据。即便是开源平台,投入的人员、后期的运维费用这都是要考虑的成本。”招商银行总行信息技术管理办公室总经理周天虹说。

  而在专门从事数据集成相关业务的Informatica公司核心技术部资深产品管理总监郑玮看来,Hadoop天生具有价格优势。其一Hadoop是开源软件,尽管开源并不意味着免费,但和商业软件相比,其采购成本要低得多;其二Hadoop是为普通的硬件设备设计的,本身已经充分考虑这些硬件的不可靠性,而不是专用硬件,这就大幅降低了硬件投入成本。

  “Hadoop的成本优势,使得其可以大幅降低数据分析和处理的门槛,提高数据的回报率。”郑玮告诉本报记者。

  Hadoop取代传统数据仓库?

  如今,Hadoop的风头如此之劲,对于一些传统数据库和数据仓库用户而言,似乎有“既生瑜,何生亮”之感。那么,未来Hadoop是否会取代传统数据库?传统数据库会面临多大的挑战?

  “对传统数据库厂商而言,大数据绝对是机会多过挑战。因为大数据的应用场景虽然与传统数据库有一定程度的重合,但更大多数情况是各有各的适用领域。这两者应该相互补充,来共同应对用户对数据的管理需求。”甲骨文公司副总裁兼大中华区CTO喻思成在接受计算机世界报记者采访时表示。

  SAP全球数据库解决方案亚太区技术总监卢东明也认为,大数据实际上将为数据仓库带来更多的商业机会。 “人们可以使用类似MapReduce的技术,来获得一些有价值的信息,这些都是此前绝对不可能分析出来。同时,也可以利用Hadoop来预处理数据,然后将把它用于数据仓库,这实际上会扩大数据仓库的使用。”他说。

  当然,不会被取代并不意味着数据库厂商可以对大数据市场无动于衷,毕竟大数据市场与数据库市场关系如今密切,如果厂商应对不当也会波及其传统市场。正因为如此,我们看到传统数据库厂商纷纷向Hadoop示好,推出各种插件来打通传统数据库(或数据仓库)与Hadoop之间的联系,或者更进一步直接进入大数据市场。

  甲骨文就是积极跻身大数据市场的厂商之一,它推出了软硬一体的大数据库机,其中内置了Cloudera版的Hadoop、Oracle NoSQL,还内置了与Oracle数据库的连接器来与Hadoop进行数据通信。在SAP最新一代数据仓库SAP Sybase IQ 15.4也同样配备了很多接口,通过这些接口可以同时访问SAP Sybase IQ和Hadoop。与甲骨文类似,IBM也推出了自己的一体化的大数据机,同时还有专门为Hadoop平台推出了分析软件InfoSphere BigInsights。微软除了最新的SQL Server 2012中提供了类似插件来支持与Hadoop的互操作外,也推出自己的Hadoop版本。

  颇值得玩味的是,作为传统数据库厂商,推崇的使用Hadoop方式大多是先通过Hadoop对大数据进行预处理,然后把这些预处理后的数据导入到数据仓库中,在利用传统数据仓库中的数据分析和挖掘引擎来对数据的分析。而一些专门的Hadoop技术供应商更愿意用户直接通过Hadoop来进行数据的分析,就像大多数互联网用户所做的那样,比如,前面提到的Vpon威朋、百分点以及联通都是这样来使用Hadoop的。

  当然,也有人认为Hadoop未来会对传统数据库市场带来相当大的冲击。Informatica郑玮就表示,虽然目前大多数人不认为Hadoop会取代传统数据库(或数据仓库),但Hadoop的应用场景肯定还会进一步拓展,从这个角度而言,对传统数据库(或数据仓库)是有冲击的。

  值得一提的是,对大数据市场感兴趣的远不只是数据库厂商和从事数据集成服务的厂商,存储厂商甚至芯片厂商都纷纷跻身其中。比如,EMC先是推出了自己Hadoop平台Greenplum HD,随后又推出了基于协作分析大数据社交平台Greenplum Chorus;英特尔不仅推出了自己的Hadoop版本,还Hadoop之上开发了管理工具和监控工具,来简化Hadoop集群的部署与管理。富士通也宣布开发出一项为大数据自动提供分析方案的技术。可喜的是,大数据市场也有中国公司的身影,华为在9月5日刚刚宣布推出X位一体的大数据存储一体机,致力于将海量结构化、非结构化数据的统一存储、分析、备份和归档。

  大数据落地 人才最紧缺

  目前,虽然大数据很热,但是从技术发展阶段而言,它还是处于市场培育期。用到大数据的用户也是边摸索边实施。因此,用户如何用好这项技术可能还是会面临一些挑战和困难。这其中最为突出的困难之一就是人才的缺乏,包括懂得Hadoop相关技术的人才和数据分析人才,尤其是后者,这一点在记者采访用户和厂商时也都被多次提及。

  “在数据的分析和处理上,我们银行最需要的是那些有统计学背景的人才,他们同时还应是了解银行业务的专业人才,尤其需要懂得将统计学的知识应用到业务上并与之相结合。至于使用具体的工具,是可以后来学会的。”招行周天虹说。

  这一观点也得到了Informatica郑玮和SAS公司大中国区咨询服务和技术总监姚远的认同,两人都不约而同地提出企业需要设立一个“数据科学家”的新职位。

  “企业需要数据科学家的帮助,来了解数据在哪里、如何拿到它们,以及什么数据是关键、它们如何生成,并懂得构建相应的业务流程。”姚远表示。

  据记者了解,在国外已经有公司开始尝试设立类似“数据科学家”的职位(有的称其为“数据分析师”或者“数据工程师”),其理想的候选人是对复杂的算法、分析和市场营销都非常熟悉,此外,最好还能懂超高速计算、数据挖掘、统计甚至人工智能。与一般商业智能分析师不同,这些专家不仅能找到和提供数据,他们还要使用它进行大量预测。

  用户可能面临的另一个挑战来自于Hadoop是开源软件,Hadoop本身还处于不断完善之中。同时,虽然现在有很多厂商围绕Hadoop提供了一些服务和技术支持,而真正能提供全面技术支持的厂商却很少。现实的情况是,用户所需要的技术支持大部分还来自于社区。而技术支持和服务对于像金融、银行这样的客户是非常重要的。

  “大型的互联网企业有足够的资源去研究开源平台,在其之上进行开发甚至软件封装的工作。而对于招商银行这样的企业而言这样做就不现实,我们需要更成熟的产品和更多的技术支持。”招行周天虹说。

  值得庆幸的是,这一点随着Hadoop的普及正在慢慢改观,目前,已经有不少厂商能提供自己的Hadoop版本和相关技术支持及服务,比如英特尔、EMC、微软等,另外还有像Cloudera、MapR等开源软件服务商可以像红帽支持自己的Linux版本那样来为自己推出的Hadoop版本提供支持和服务。而未来,相信随着Hadoop生态系统进一步完善和成熟,市场上必定会涌现更多专业的工具和专业的服务,Hadoop也必将为我们了解我们的业务乃至认识我们所在的这个世界提供更多的帮助。

  链接一

  IDC对中国大数据市场的预测

  1. Hadoop走向商业化;

  2. 部分早期的Hadoop项目面临挑战;

  3. 开源软件为大数据市场带来更多机会;

  4. 大数据推动软件公司间的并购;

  5. 针对大数据的一体化设备市场迅速增长;

  6. 大数据由网络数据处理走向企业级应用;

  7. 大数据市场开始细分;

  8. 出现打包的大数据行业分析应用;

  9. 大数据推动基础架构横向拓展;

  10. 中国成为全球最重要的大数据市场之一。

  链接二

  关于Hadoop

  Hadoop是一个Apache项目,也是一组软件的总称,起源于作者Doug Cutting儿子的一只玩具大象的名字Hadoop 。Hadoop由 Apache于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入。

  简而言之,Hadoop提供了一个分布式系统基础架构,让用户可以在不了解分布式底层细节的情况下,开发分布式程序,以充分利用集群的威力高速运算和存储。Hadoop主要包括HDFS、MapReduce和HBase等组成部分。HDFS是一个分布式文件系统,具有高容错性的特点,设计用来部署在通用硬件上,同时,它还能提供高传输率来访问数据,因此非常适合那些有着超大数据集的应用程序;HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase可在通用硬件上搭建起大规模结构化存储集群;MapReduce是一个编程规范,分别由Map和Reduce组成。

  在Hadoop的构成中,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和故障恢复机制。此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变得非常简单。

  大数据为我们提供了一种新的方式来处理数据,从而让更多的草根企业也可以利用数据分析获得竞争优势。

  本报记者 邹大斌

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: