Gartner预测,到2015年,超过85%的财富500强企业将在大数据竞争中失去优势。Gartner认为,大部分的组织或企业都不具备技术力量处理大数据,也没有能力管理大数据。
Gartner的预测看起来有些悲观,但的确反映了用户在数据利用上的问题。比如没有明确需求、没有数据层面的全局观、日益增长的数据量和更多样的数据类型加大了数据利用的难度。对大多数企业用户来说,基于Hadoop自行开发应用处理大数据难度颇大。因此,很多IT公司都在紧抓大数据商机,开发基于Hadoop的大数据解决方案,包括Cloudera这样的创业公司以及像IBM这样的行业巨头。IDC在其报告中指出,2012年可能会是充满由大数据引发的合并及收购活动的一年。近日,IBM软件集团大中华区信息管理软件总经理卢伟权、IBM中国开发中心信息管理首席架构师及大数据架构师陈奇向记者介绍了IBM的InfoSphere大数据分析平台。
基于Hadoop的BigInsights
IBM 对 Hadoop 的研究开始于 2~3 年前。截止到目前,研究成果涉及作业调度、查询语言等多个方面。2011年5月,IBM正式推出InfoSphere大数据分析平台。“这也是目前业界唯一的专门针对大数据分析的平台产品。”卢伟权说。目前业内主流的做法是在已有产品中嵌入一些大数据功能。
InfoSphere大数据分析平台包括 BigInsights和Streams,二者互补,Biglnsights对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。
BigInsights基于Hadoop,增加了文本分析、统计决策工具,同时在可靠性、安全性、易用性、管理性方面提供了工具,并且可与DB2、Netezza等集成,这使大数据平台更适合企业级的应用。“作为一个优秀的并行计算平台,Hadoop 虽然已经被广泛验证,但是在 Hadoop 上开发 MapReduce 程序需要较长的开发周期,开发人员需要充分理解 MapReduce 计算框架和 HDFS 文件系统的原理和实现才能编写出性能较好的 MapReduce 程序。” 陈奇解释说,“此前一些基于Hadoop的大数据分析平台都是出于科研项目的需要,而今要把大数据平台变成企业级分析产品,对大数据平台的要求就更高了。光有Hadoop这个架构是远远不够的,所以IBM对基于Hadoop的BigInsights做了很多改进。”
比如,BigInsights提供了一种类似SQL的更高级的查询语言。再如,除了支持 Hadoop 的 HDFS 存储系统外,BigInsights还对 IBM 最新推出的 GPFS SNC平台进行支持,以更好地利用其强大的灾难恢复、高可靠性、高扩展性的优势。“企业级产品更重要的是没有单点故障,GPFS让整个分布式系统更可靠。”陈奇指出。
Hadoop本身不提供分析的功能,因此BigInsights平台增加了文本分析、统计分析工具。目前,丹麦能源企业维斯塔斯(Vestas)通过使用 BigInsights大数据软件分析P字节级别的天气数据,改善风力涡轮机的放置位置,从而获得最佳能量输出效果——以前需要数周方可完成的分析现在仅需不到一个小时。
Streams监控婴儿ICU感染
InfoSphere Streams是一款满足即时处理、过滤和分析流数据需要的应用程序。流数据包括传感器数据(环保以及工业生产传感器产生的数据、监控视频、GPS产生的数据等)、“数据废气”(如网络/系统/Web服务器/应用程序服务器日志文件)、高速交易数据(如金融交易和呼叫详细记录)等。
Streams最早是美国国土安全部和IBM合作的项目,国土安全部出于反恐目的,需要实时分析电话语音信息,这个项目最终发展成为一个商用的项目。
目前,安大略理工大学正在使用Streams监控新生婴儿,提前24小时预测ICU感染。“数据到来时,你只想看一眼,然后就可以让它走。”陈奇说,Streams提供了一种操作系统实现这个功能,在多台计算机之间共享一个特定程序,这样系统作为一个整体就可以在不把数据提交到硬盘的情况下生成答案。
对于企业来说,有了大数据分析平台,是否就意味着废弃此前的数据仓库呢?陈奇表示,大数据分析平台并不能取代传统的数据仓库,一方面是因为技术成熟度,比如Hadoop的技术还不够成熟,另一方面是具体的业务需求问题,所以BigInsights和Streams是数据仓库的补充,而不是代替数据仓库的产品。
本报记者许继楠
……
关注读览天下微信,
100万篇深度好文,
等你来看……