Hadoop成功走出硅谷

  两年前,当美国底特律刑事委员会开始收集和分析犯罪嫌疑人在社交媒体发布的帖子时,发现Excel软件无法完成分析,因此,这家仅有11人的机构开始使用Hadoop。正如该机构主管情报分析工作的莱尔·邓吉讲述其亲身体验:“几百万条的数据量实在太庞大,类似Excel的电子表格的简单分析根本无法满足我们的要求,为此我们需要更强大的工具。有相当多的数字证据本来已经存储在那里,只是大多数机构还没有充分利用它。”Hadoop已协助他们发现了两家犯罪嫌疑组织间的关联关系。

  蓬勃的产业群

  事实上,很多非常好的技术都很难传播到硅谷之外,仅靠自身蠕虫般慢慢打入小型城镇机构。相比之下,Hadoop开发十年来,围绕着开源软件技术,一个蓬勃的产业群已开始出现。农业巨头孟山都公司依靠Hadoop分析并预测气候规律;而印度政府则用它来存储并分析超过五亿的公民信息,以支持国家身份登记工作,其中印度的生物特征数据库,据说是世界上规模最大、功能最强的系统,每分钟可处理多达400万次登录。

  数十家公司在市场上销售Hadoop的衍生版本,有些免费安装使用,仅收取咨询、支持的服务费用。根据一份来自联盟市场调研公司发布的研究报告显示,2012年全球Hadoop的市场容量为15亿美元,预计到2020年将增至502亿美元。该市场的佼佼者,如Cloudera、Hortonworks及MapR,都曾吸引了数亿美元的风险资本投资。

  节省可观的投入

  Hadoop的发明者道格·卡丁,现担任Cloudera首席架构师,当他还在雅虎担任程序员的时候,就开始编写该软件的第一部分代码,并以他孩子的玩具大象的名字Hadoop命名了该软件。他开玩笑道:“我当时只是不想让它充斥我的大脑。”

  由于Hadoop是开源软件,企业不必担心被单一软件供应商束缚。“没有人提交的代码内容超过全部代码的15%或20%,所以你不可能操控整个开源社区。”MapR首席执行官约翰·施罗德说,有修改源代码权限的程序员需要遵守行业规范。

  Hadoop可以处理比传统企业数据库更大量级的数据量,北美专门从事大数据咨询业务的Capgemini公司负责人史蒂芬·哈里斯说,比起数据库巨头如甲骨文、SAP的产品,这类软件要便宜很多。在线购车网站TrueCar高级副总裁约翰·威廉姆斯介绍说,自从2013年他们的数据分析软件从大型供应商换成Hortonworks公司提供的Hadoop软件,节省了“相当可观的投入”。正是这一系统转换,TrueCar用于数据整理分析软件的前期投入,数据运营成本从19美元/GB下降到23美分/GB,仅这一项,就为公司节省将近2000万美元。

  保持技术简单可靠

  “每一家企业,不论是IBM、Teradata、甲骨文,还是SAP,在其产品的架构中都不同程度地使用了Hadoop技术。”Cloudera首席执行官汤姆·赖利说。目前,英特尔拥有Cloudera公司18%的股份,而惠普则投资5000万美元在Hortonworks公司。

  Hortonworks首席执行官罗布·比尔登认为,虽然大家是竞争对手,但保持技术“简单可靠”是所有Hadoop供应商的共同愿望,因为早期Hadoop应用者“非常不满意繁复的实施过程以及过于强大的功能”。美国一家名为模式与预测研究所的咨询机构,从2007年开始使用Cloudera的某一版本,为国防部提供数据分析,可识别并防范军事人员发生自杀的风险。公司高级合伙人克里斯·波林评价说:“我们现在刚刚实现基础设施的足够稳定,做到可控管理。”

  道格·卡丁说,Cloudera的软件已经发展得比较成熟,他目前可以投入大部分时间关注其他项目,而近期,“我只需要做些修补或增加一些新功能而已。”

  编译 秦建秀

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: