大数据重新定义商业智能

  • 来源:计算机世界
  • 关键字:大数据,商业,智能
  • 发布时间:2011-10-21 10:41
  在大数据时代,一批新的数据挖掘技术正在涌现,有望改变我们分析处理海量数据的方式,使得我们更快、更经济地获得所需的结果。同时,这些新技术也将给商业智能市场带来巨大冲击。

  这样的预测我们已经不止一次听到过:到2020年,需要存储的数据量将达到35万亿GB,是2009年数据存储量的44倍。根据IDC的研究,2010年底全球的数据量已经达到120万PB(或1.2ZB)。这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回(从地球到月球大约24万英里)。

  对悲观者而言,这是一个不好的消息,意味着数据存储世界的末日。而对于乐观者而言,这里孕育着巨大的市场机会,庞大的数据就是一个信息金矿,随着技术的进步,其财富价值将很快被我们发现,而且会越来越容易。

  实际上,围绕大数据,一批新兴的商业智能技术(包括数据挖掘、数据存储、数据处理和分析技术)正在涌现,让我们处理海量的数据比以往任何时候都更便宜和更迅速。特别是,一旦这些大数据技术与超级计算机相结合,将成为企业业务经营不可或缺的助手,甚至改变许多行业做生意的方式。

  何谓大数据

  正如如日中天的“云计算”一样,近年来业界对大数据有了很多讨论,但是关于它的确切定义也有多种说法。从云计算的发展过程来看,为了更好地让大数据技术落地,咨询机构的分析师和大数据相关厂商除了要给我们描述清楚大数据对于数据挖掘以及商业智能的未来意味着什么以外,同样有必要明确地告诉我们,究竟什么是大数据,哪些与大数据无关。

  相对比较一致的说法是,大数据是指一系列使用非传统的工具(比如Hadoop,但不限于Hadoop)来对大量的结构化、半结构化和非结构化数据进行处理,从而获得各种分析和预测结果的一系列数据挖掘技术,它不仅包括大型数据仓库及其支撑其运行的硬件系统,还包括形式各异的海量数据,如计算机系统日志、金融服务交易记录、搜索引擎的搜索记录、电子邮件以及各种社交媒体活动等。

  大数据之所以如今成为热门是各种内外因综合作用的结果。众所周知,在摩尔定律的推动下,IT设备的硬件成本一直在不断降低。单位计算成本的不断下降以及多重处理系统的性能不断改善,给企业的大数据处理技术奠定了一个非常好的硬件基础;第二个原因是内存成本的不断下降,系统在内存中就可以处理大量的数据,而以前这需要大量的投资,高昂的投资使得这一办法常常实际上是不可行的;第三个原因,也是最重要的,现代IT技术让我们把很多服务器连接到一起组建服务器群集变得非常容易。

  在IDC的数据库管理分析师CarlOlofson看来,正是上述三个方面的因素结合起来创造了大数据时代的到来。

  “现在我们不仅可以把这些事情做得很好,而且是以一种可以负担得起的方式来进行。”他说,“过去,一些部署了多重处理系统的大型超级计算机也可以联成紧耦合的集群系统,但其投资十分巨大,常常是数百万甚至上千万美元,因为重要专门的硬件。而现在我们通过常见的硬件设备就可以达到同样的配置,这就意味着我们能以一种更快、更便宜的方式处理更多的数据。”

  不过,并非每个正在使用大型数据仓库的企业都可以说它正在使用大数据技术。IDC认为,要判定一个企业是否需要(或是不是)使用大数据技术,其前提是该技术必须可以负担得起,其次还要满足三个标准,即IBM所说的三个“V”:类型(variety)、数量(volume)和速度(velocity)。类型指数据中有结构化和非结构化等多种数据形式;量指收集和分析的数据量非常大;速度是指数据处理速度要足够快。

  “大数据并不是说数据量总是有数百TB。数据量是否大要看具体使用场景,几百GB的数据量也可能对某些场合而言就相当大了,因为数据的处理有三个方面的要求,除了数据量达到一定规模以外还要求速度或时间。”Olofson说,“如果我可以在一秒内完成对300GB数据的分析,而过去它需要一个小时,这将大大改变我利用这些处理结果的方式,这种处理能力的改善就为企业增加了价值。另外,使用大数据技术的成本是企业负担得起的,而且至少能满足上述条件中的两个。”

  大数据与开源的天然联系

  “很多人认为Hadoop和大数据同义词,这是一个错误的认识。”Olofson说。他进一步解释说,一些应用虽然采用的是Teradata、MySQL和“聪明的集群技术”而没有用Hadoop来实现,但也可以认为是大数据的应用。

  Hadoop是一个面向大数据的应用环境,也是大数据领域目前为止最受关注的工具,因为它基于MapReduce——这是超级计算机界常用的一个平台,在Google资助下对它进行了简化和优化。Hadoop由密切相关的几个Apache项目组成,其中包括MapReduce中的HBase数据库。

  目前,软件开发人员提出了很多技术来扩展Hadoop的使用,而且还开发了很多类似的技术,其中许多来自开源社区。

  “软件技术人员创建各种各样的NoSQL数据库,其中大多在优化数据库的I/0、增加数据的处理类型或者对海量数据的处理上发挥了关键作用。”Olofson说。

  但是,这些开源技术没有商业上的支持。“这些技术还要完善一段时间,最终能在市场上立足可能还需要数年。因此,这些新生的大数据技术还要几年时间才能修成正果。”他补充说。

  来自IDC的消息说,今年年底至少有三个技术供应商将为Hadoop提供一些支持服务。此外,几家厂商(如Datameer)将推出几个基于Hadoop的分析工具,以支持企业开发自己的应用,Cloudera和Tableau也已经在其产品中使用了Hadoop。

  不过,业内观察家就升级后的新一代关系数据库管理系统是否也应该被认为是大数据技术存在不同意见。

  “我认为新一代数据库系统符合更快、更大、更便宜这个标准,”Olofson说,以Teradata为例,它的数据库系统已经变得便宜多了,而且它还是一个可扩展的集群环境。

  但也有人不同意。“一般而言,你能用数据库和标准的BI工具来完成这些数据处理,这就不是真正的大数据技术。”Gartner的数据管理分析师MarcusCollins说,“因为这些处理技术已经存在很长一段时间了。”

  仍在快速演进之中

  大数据技术仍处于快速演进之中。现在正在利用该技术的公司无疑拥有一批优秀的IT人员,他们一般都非常精通技术,并能适应技术的进步和自己公司的要求。

  “如果你的公司不具备这些条件,那么,可以尝试与服务提供商(也许是某个云服务)进行合作,或者干脆再等等,直到市场有众多厂商能提供成熟的软件产品和服务再考虑应用大数据技术。”Olofson建议说,“毕竟,你的业务人员才是真正了解你业务的人。”

  毫无疑问,数据挖掘相关技术已经发生了巨大的改变,但分析家说,大数据技术不会完全取代今天的数据仓库和数据挖掘工具。

  “一直以来,数据挖掘重点考虑的是建立一个相对复杂的模型,来分析和处理不太多的数据。”Gartner的Collins说,“而现在,大数据技术让我们能处理海量的数据,因此很有可能,未来我们不再需要一个非常复杂的模型了。这可能意味着数据挖掘方式将发生巨大转变。”

  “我的看法是,大数据肯定将为数据仓库带来更多的商业机会。”Olofson说,“人们将使用类似MapReduce这样的技术,可以是Hadoop也可以是一些其他的技术,来获得一些非常有趣(或有价值)的结论,这些都是此前不可能分析出来的。有了这些成功的尝试,人们将用数据仓库进行更多的处理,这实际上会扩大数据仓库的使用。”

  规模和成功案例是大数据技术面临的另外一种挑战,Collins说,“因为没有现存的部署和使用这项技术的体系架构可供参考。可以说,大数据技术是在边摸索边完善。”

  他说,如果使用套装的工具有助于避免一些技术风险,但很多时候这项技术看起来似乎就是一些编程接口,很不成熟,对于商业智能技术的应用而言,这实际上是一个倒退。Collins举例说,“Hadoop是一个漂亮的供学术研究的系统,但在商业智能的驱动下,它已经进入企业和用户桌面,并且拥有对用户非常友好的用户界面。而且有很多厂商围绕Hadoop提供了一些服务和技术支持,但更多的技术支持可能还是需要从用户社区中获得。”

  “大数据技术想要在IT领域得到普及,就需要为用户提供可以方便使用的工具,但在业务部门,供它们使用的此类工具还没有出现。”他补充说。

  谁在用大数据分析

  那么,究竟有哪些用户是在真正做大数据分析?

  一年前,大数据技术的主要用户是大型网络公司,如Facebook和雅虎,它们需要分析网页的点击数据。但在今天,“大数据技术的使用已经超出了互联网公司,其使用者涵盖各种各样的类型,几乎所有拥有海量数据的公司都在使用大数据技术。”Collins说,银行、公用事业、智能社区..众多的企业纷纷搭上了大数据这辆花车。

  事实上,一些大数据技术正在被那些迫切需要这些技术而且对新技术异常敏感的人们积极使用,如创建由社交媒体驱动的基于Web的服务。实际上,这些技术在这些项目中起到了关键作用。

  而在其他一些垂直行业,企业已意识到,与之前相比它们在产业链上的价值越来越依赖于信息,这样的认识推动了大数据技术得到更快速地应用和普及。再加上硬件价格的不断下降以及可承受的软件费用,企业发现自己正处于业务转型的一个绝佳机会当口。

  乐天编译

  链接

  关于大数据的三个误区

  如今,业界有大量关于何谓大数据以及它可以做什么的说法,其中有很多是相互矛盾的。这里是关于大数据的三个典型的错误说法,都存在一定的片面性:

  1.关系型数据库不能扩展到非常大的数据卷,因此不被认为是大数据的技术。

  2.无论工作负载有多大,也无论使用场景如何,Hadoop(或,推而广之,任何MapReduce的环境)都是大数据的最佳选择。

  3.基于数据模型的数据库管理系统的时代已经结束了,数据模型必须采用大数据的方式来建立。

  (资料来源:IDC2011年市场研究报告)

  记者观察

  大数据彰显数据价值

  数据也是企业的重要资产,这是IT圈的人常听到的话。由于数据挖掘等商业智能技术的应用,让不少企业从大量的历史数据中剥茧抽丝,发现很多有价值的信息,大大改善了管理人员决策的科学性。不过,长期以来,商业智能的应用一直局限于结构化数据,其核心组件数据仓库最为擅长的也是结构化数据的存储与管理。

  大数据就是要打破传统商业智能领域的这一局限,它不仅在处理数据的量上有了提高,能处理结构化数据,而且还能分析和处理各种半结构化和非结构化数据,甚至从某种程度上,更擅长处理非结构化数据,比如Hadoop。而在现实生活中,这样的数据更为普遍,增长得也更为迅速。比如,社交媒体中的各种交互活动、购物网站用户点击行为、图片、电子邮件等。可以说,正是此类数据的爆炸性增长催生了大数据相关技术的出现和完善。

  不难预料,随着大数据相关技术的不断成熟,数据分析和处理技术在从传统的结构化数据领域扩展到非结构数据领域之后,将获得更大的应用空间。同时,继互联网、零售业之后,越来越多的行业将从大数据中受益,数据的真正价值也将得到进一步的彰显。

  事实上,敏锐的厂商已经看到了大数据的市场前景,并正在为此积极准备。在过去的一年多时间里,IT业界发生了多次与大数据有关的商业并购行为,其中包括IBM收购Netezza、EMC收购Greenplum、惠普收购Vertica、Teradata收购Aster等等,厂商的热情也在一定程度上佐证了这一技术的良好应用前景。

  (文/邹大斌)
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: