Hadoop的梦想与现实

  可以说,Hadoop的出现是计算技术发展进程中一个重要的里程碑,它使实用的大规模分布式计算和存储成为可能。因此,有专家评论,Hadoop是到目前为止最为成功的通用分布式处理框架,也是这些年来影响最为深远的系统性开源项目之一。

  IDC发布的Hadoop软件生态系统预测报告显示,Hadoop市场正在以60%的年复合增长率高速扩张。Gartner也估计,2014年,Hadoop生态系统市场规模在7700万美元左右,2016年,该市场规模将快速增长至8.13亿美元。

  另外,Allied Market Research调查报告显示,2013年至2020年,全球Hadoop市场份额将以58.2%的年复合增长率,从20亿美元增长至50.2亿美元,增长幅度超24倍。其中,大数据分析需求是整个Hadoop市场的主要驱动力,也吸引了众多IT淘金者参与。

  Hadoop市场的火爆也体现在人才市场上。2013年,美国某求职网站列出的2013年高薪技术职位排行中,大数据相关技术职位囊括前三甲,分别为Hadoop、Big Data和NoSQL。

  Gartner的一项研究表明,到2015年,65%的分析应用程序和先进分析工具都将基于Hadoop平台。在未来一段时间内,Hadoop将变得更加流行。Hadoop的知名度是足够高了,但是Hadoop在项目中到底表现怎么样?有Hadoop项目经验的工程师最有发言权。

  上篇:优势与不足

  事实上,很多初次接触Hadoop的程序员都会把Hadoop当做化解大数据疑难杂症的灵丹妙药,希望能够迅速地做到药到病除。但是,当下载了Hadoop社区发行版之后,很多工程师才发现成功“驯服”Hadoop的过程是“路漫漫其修远兮”,随之就会产生巨大的心理落差。

  Hadoop难“驯服”

  曾经担任雅虎首席云计算架构师的Todd Papaioannou曾这样评价Hadoop:它属于底层基础软件,而今天大多数IT人员都不熟悉底层基础软件,因此实施难度大,极为难用。如果不解决技术复杂性问题,Hadoop将被自己终结。

  当年,Todd Papaioannou带着团队要完成一项艰巨的任务——在拥有40万个节点的雅虎私有云中配置4.5万台Hadoop服务器,为5000位雅虎开发人员创建一个稳定的开发平台。

  雅虎负责建设Hadoop平台的团队个个手忙脚乱,就像一群中学生在车库中做手工,从Hadoop代码库中翻找可供粘贴整合的代码。当基础架构总算搭好的时候,开发者又花了4~5个月才开始发布应用,这也严重影响了雅虎的产品创新进度。

  但是,并非所有人都那么惧怕Hadoop,一些技术实力强的互联网公司在驯服了Hadoop之后,开始大胆地尝试一些源于Hadoop尚未成熟但是更高效的开源新技术,如Spark和Yarn。

  8月12日,淘宝技术部数据挖掘与计算团队负责人明风在其个人新浪微博上透露,Spark on Yarn已经在淘宝上线一周年了。明风表示,经过团队成员一个多月的努力,终于成功地将Spark on Yarn接入阿里云梯的Yarn生产集群,并每日调度生产作业。目前,这个基于阿里云梯的Yarn集群规模是:100台机器,8核CPU、单个作业最大可用内存400GB。

  “死磕”Hadoop

  曾经担任原北京暴风科技有限公司暴风影音平台研发经理的童小军,在2010年到2012年两年多的时间里,一直在与Hadoop“死磕”。

  回顾那段历史,童小军不无骄傲地说:“当年,暴风影音的业务部门离不开我们的数据部门,数据部门一瘫痪,业务部门就无法决策,第二天的工作也就停止了。”

  当时,那头被驯服的“小象”Hadoop成为暴风影音搜索和数据平台的核心角色。该平台的顺利运行给当时的暴风影音带来两个最直接的变化:

  第一是将暴风影音每天20TB日志数据的分析时间从7小时缩减为不足1小时。

  第二是将整个系统的统计数据作为业务部门第二天开展工作的依据。

  例如,哪个服务崩溃了、什么地方的服务出现异常、什么服务的用户量下降了等。该平台还给暴风影音带来了意外收获:随着数据处理速度的提升,原来需要外包给其他公司分析的广告数据,可以由暴风影音的数据部门来承担。

  童小军直言:“虽然现在的Hadoop看起来没有那么难掌控,但是当初我们从零起步的时候着实为Hadoop伤透了脑筋,走了很多弯路。”

  童小军表示,Hadoop很多默认配置都不能用,需要根据项目自己配置,而且每台机器的配置都不一样,对于初学者来说难度很大。另外,Hadoop平台上的很多应用是用C++或VC开发的,运行前还需要转码。另外,一开始的Hadoop项目,并没有得到公司领导的大力支持,公司只给数据部门配备了3台低端服务器。

  无论童小军怎么努力,该平台总是运营一段时间就崩溃。为了能够把Hadoop系统运行起来,童小军曾经给公司高层提议购买100台服务器,结果被领导痛批一通。万般无奈的情况下,童小军冒险将该平台系统搭在了公司正在使用的几十台服务器上,结果Hadoop系统一次就运行成功了。

  童小军面临的更大困难是把暴风影音业务系统全部迁移到Hadoop平台上来。从原来的平台迁移到Hadoop平台上,相当于把全部的程序都重写一遍,这个工作从2010年持续到2012年。工作量大是一方面,业务系统千差万别而且复杂度高更让童小军头疼,没有一定的耐心是不可能完成迁移的。不过,暴风影音的业务系统迁移到Hadoop平台之后,至少在5年内都可以满足数据增长的需求。

  在Hadoop刚诞生的那几年里,人们几乎将Hadoop与大数据画上了等号。似乎,企业只要下载一套Hadoop发行版马上就能拥有大数据分析处理的能力了。但是,经过这几年的实践,程序员们逐渐开始明白如何正确看待Hadoop,而Hadoop表现出来的优势和不足之处也更加鲜明。

  实时分析能力不尽如人意

  说到Hadoop的不足之处,星环信息科技(上海)有限公司CTO孙元浩谈到,早期在把Hadoop应用到数据仓库时碰到过很多困难。在GB级到TB级的数据量上,MapReduce的性能会比关系数据库或者MPP(massively parallel processing,大规模并行处理机)数据库慢10倍左右,再加上HiveQL支持的语法只是标准SQL语法的30%,导致当初很多建设在Hadoop之上的数据仓库项目失败了。同时,孙元浩表示,由于企业复杂的工作流通常需要多个阶段的MapReduce任务,而MapReduce的输入输出必须经过低速磁盘,导致运行过程复杂,迭代任务时效率非常低,因此不适合对延时要求高的交互式分析或者需要复杂迭代的数据分析任务。

  Spark亚太研究院院长王家林则具体指出,MapReduce进行大数据处理是基于磁盘的,每次计算都要经历从磁盘读取数据、计算数据、保存数据的三阶段,这就使Hadoop难以满足人们对大数据的特别查询需求。

  赛仕软件研究开发(北京)有限公司(以下简称SAS)总经理刘政也指出,Hadoop在任务展开和执行时牺牲了部分时效,而且Hadoop的Reduce任务只有在全部Map任务完成后才能启动执行。因此,Hadoop对于企业的实时业务分析系统而言存在弱点。

  北京永洪商智科技有限公司(以下简称永洪科技)CEO何春涛认为,Hadoop的最大不足是:Hadoop追求高吞吐量,导致时间延迟较高。Hadoop可以支持百亿级的数据量,但很难应对秒级响应的需求,即使只是数亿的数据量,Hadoop也只适合做分钟级别的离线分析系统。因此,不适合做实时分析系统。何春涛从通信层的角度分析指出,当Hadoop任务分配Server时不会将信息发送到计算节点,而是让计算节点通过心跳机制去拉动任务。

  基于框架的通用性,MapReduce代码也会在HDFS(Hadoop Distributed File System,分布式文件系统)中传送,在各计算节点展开,再通过启动新JVM进程装载并运行。类似的JVM进程启/停的动作会有五六次之多。Reduce作业只能在全部Map 作业完成之后才能启动。此外,何春涛认为,Hadoop缺少专业的商业支持服务,传统企业需要储备专业的Hadoop技术人才才能保证系统的正常运转。

  Teradata天睿公司大中华区大数据事业部总监孔宇华也对Hadoop技术人才缺乏表示担忧。Hadoop是一个性价比很高的数据抓取、数据管理、数据转换平台。有了这种比较廉价的数据处理平台,很多企业都可以把数据保存下来挖掘更多的数据价值。但是,企业真正要在Hadoop平台上做数据分析、数据挖掘,最大的难题是需要找到一些基于Hadoop平台懂数据、懂分析,又懂编程的技术人才。

  同时,王家林认为,Hadoop难以应对多元化的大数据处理业务。企业如果要同时部署在语言和运行机制方面都有差异的Hadoop、Storm、Impala等三套系统,那就需要三个独立的技术团队开发、运营和维护,同时三个系统之间共享数据的代价也是非常大的,更不用谈直接共享彼此的操作算子。Hadoop近三年来在架构上和性能上并无长足进步,很多新版本只不过是对系统错误和不足的修修补补而已,这就导致了系统代码越来越臃肿。

  同时,Hadoop系统编写和开发语言采用Java,由于Java语言的特性导致在开发时语言的表现力差,在表达机器学习等算法时非常繁杂,这使得Hadoop在应对大数据处理要求时的表现越来越糟糕。

  高性价比的大数据处理平台

  孙元浩表示,Hadoop主要由HDFS和MapReduce组成:HDFS是一个高可扩展的分布式文件系统,是大数据软件栈的基石;MapReduce在处理PB级别的数据时具有高容错性、高吞吐量的特点。

  刘政认为,Hadoop是下一代海量数据分布式处理的理想基础架构,特别是对非结构化数据的存储和处理,它可以让用户比较容易地构建自己的分布式计算平台。

  Hadoop的优势不仅表现在海量数据存储和处理能力方面的高可靠性,以及能够自动保存多个数据副本和自动重新分配失败任务的高容错性,还表现在它能够在计算机集群数以千计的节点间分配数据和完成计算方面的高可扩展性,另外还在于它在计算节点之间动态移动数据和保持计算负载均衡获得较快处理速度的高效性。基于Java技术开发的Hadoop能为企业系统提供稳定可靠的API接口,为利用大规模廉价硬件设备上的计算能力构建高性能分布式计算框架提供了可能。因此,Hadoop非常适合构建非实时的离线分析系统。

  中篇:挑战与融合

  Gartner预测,到2018年大数据将带来超过1000亿美元的IT开支。IDC也预测,2015年大数据市场规模将从2010年的32亿美元增长到170亿美元,年复合增长率为40%。

  我们总是听到大数据这个词,那么多大的数据算是大数据,Hadoop适用于多大的数据量呢?麦肯锡曾经对大数据的范围进行定义:传统数据库有效工作的数据量一般在10TB至100TB,100TB被成为是大数据的门槛。

  IDC在给大数据做定义时也同样把阈值设在100TB。这两家分析机构认为,大数据大到传统数据分析工具已经无法进行正常采集、存储、管理和分析过程,这个时候恰恰就是Hadoop最适合的应用场景了。

  自从IBM、甲骨文、SAP等将排名靠前的BI厂商收入囊中后,BI市场保持相对稳定了很多年。在数据仓库领域,Teradata多次被Gartner数据仓库DBMS(数据库管理系统)魔力象限列为领导者。同时,IDC的研究数据也表明,SAS在高级分析领域占有35.4%的市场份额,超过了排名第二的竞争者两倍以上。

  Hadoop的出现似乎为打破原有的市场格局做着铺垫。为了适应大数据时代的企业新需求,为了继续自己的领导者地位,很多国际IT巨头都在向Hadoop伸出橄榄枝。

  软件巨头拥抱Hadoop

  数据仓库领域的领导者Teradata在2011年收购了Aster公司。同时,Teradata开始与Hortonworks合作兼容其商用发行的Apatch Hadoop。并且,Teradata还推出了统一数据架构(Teradata Unified Data Architecture,UDA),包含三层架构:Hadoop作为数据存储和数据转换平台,Teradata数据仓库作为数据分析平台,Aster作为分析和探索平台。

  孔宇华表示,为了更增强Teradata统一数据架构的功能,Teradata新收购了一家公司Hadapt。收购Hadapt之后,Teradata可以把SQL数据库创建在Hadoop上,可以把Aster上的应用更好地与Hadoop结合,也可以让Teradata数据仓库和Aster更好地配合,最终目的是实现原本独立的三个平台的数据共享。Teradata的QueryGrid可以从Teradata或Aster任意一个平台上发出指令,从其他平台抽取数据做集中分析。

  孔宇华强调,Teradata最大的愿景是在不同平台之间实现数据运作、数据管理和数据应用。

  作为一家传统的数据分析工具提供商,刘政表示,Hadoop项目和相关技术的广泛应用,并没有影响到SAS这类数据分析软件厂商。恰恰相反,由于Hadoop非常适合构建时效性不是很强的离线分析系统,Hadoop的广泛应用和成熟对擅长数据分析的SAS而言是一种福音。

  目前,SAS已经将Hadoop 作为下一代内存分析服务器系统的基础架构组件之一,并开发了相应的数据访问引擎。

  另外,SAS对Hadoop的主要商业发行版本都有支持,包括Cloudera、Hortonworks、BigInsights、Pivotal HD和Cloudera Impala等。可以说,Hadoop被业界越多的采用,SAS就会有越多的潜在用户。现在,SAS在Hadoop 平台上引入了Embedded Process技术。该技术将融合SAS自身的内存计算技术和Hadoop的各种服务,更好地支持Hadoop的作业调度和计算负载分配机制。

  刘政认为,对SAS的用户而言,并不存在所谓的数据和大数据的鸿沟,因为SAS 语言隔离了用户需要面对的纯粹技术性挑战,毕竟在分析领域,用户其实并不关心数据的存储架构和计算架构。

  SAS选择Hadoop作为下一代商业智能的基础支持组件,审慎地看待Hadoop技术的实质并不断挖掘Hadoop可能给用户带来的好处,降低用户从传统数据时代迈入大数据时代的技术门槛。

  刘政指出,Hadoop给SAS带来的直接挑战是:许多用户说要采用Hadoop来帮自己迈过大数据时代的门槛,但其实有些用户并不明白Hadoop能够给他们带来什么价值,甚至很多用户根本没有必要使用大数据技术。

  因此,SAS对应的策略是,让Hadoop对用户完全透明。用户只要知道他们的分析已经被SAS高性能分析服务器所集成和使用,哪怕将来Hadoop本身不断演进,用户也不必担心这种演进给用户带来的新挑战。

  刘政做了一个形象的比喻:“如果说Hadoop是一头日益强壮的小象,终有一天会在大数据分析领域恣意驰骋,那么我们希望SAS就是一位驯兽师。”

  何春涛表示,Hadoop和敏捷BI各自适用于不同的业务场景,两者是互补关系。在永洪科技的诸多客户中,有不少是采用Hadoop实现数据存储。要实现这些企业的敏捷BI,只需要把Hadoop的数据导入永洪科技基于分布式内存计算的高性能数据集市,然后进行敏捷可视化分析即可。

  由于现在Hadoop的应用相当广泛,永洪科技产品支持开箱即用的Hadoop数据源连接,以拥抱Hadoop生态体系,既能满足企业用户海量数据存储的需要,又能进行实时数据分析。

  事实上,IBM、微软、甲骨文等国际IT巨头在更早的时候就纷纷开始拥抱Apache Hadoop。

  2011年,IBM宣布在SmartCloud平台上新增一项基于Apache Hadoop的服务——InfoSphere BigInsights分析软件。该软件包括Apache Hadoop发行版、面向MapReduce编程的Pig编程语言、针对IBM的DB2数据库的连接件和IBM BigSheets。

  2012年,IBM宣布与Cloudera合作,并开始支持其他Hadoop发行版本。与此同时,IBM收购大数据工具Vivisimo公司,将大数据的搜索和分析扩展到Hadoop之外的传统遗留应用和数据仓库。日前,IBM与Veristorm合作提供业内首个商业Hadoop for System z Linux,使得客户无需将数据搬离主机就可以更快更安全地进行基于Hadoop的各种分析。其中,zDoop软件则是其在Hadoop方面的新产品,利用新存储和Hadoop产品实现更佳的数据管理,获取实时洞察。

  为了更好地兼容Apache Hadoop,微软与Hortonworks合作,推出了自己的Hadoop发布版HDInsight。微软HDInsight平台也完全兼容其他Apache Hadoop发行版,同时集成自己的商业智能工具,例如Excel、SQL Server和PowerBI。

  随后,微软通过HDInsight与Active Directory的集成来增强Hadoop的安全性,通过与System Center集成,简化Hadoop的管理,并支持IT部门在同一面板上管理Hadoop集群、SQL Server数据库和应用程序。

  Hadoop与SQL Server 2012兼容的特性是微软与Hortonworks合作开发的结果。基于这次合作,微软很快推出了基于SQL Server 2012的并行数据库一体机PDW布局大数据市场。更为积极的事情是,Hortonworks在2013年2月25日发布了Windows版Hortonworks 大数据平台HDP(Hortonworks Data Platform)。

  2011年10月,甲骨文发布了新版NoSQL数据库企业版,这是运行于Hadoop 之上的大数据软件之一。2012年,甲骨文加强与Cloudera的合作,将Cloudera‘s Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大数据机之中。

  甲骨文同时还推出了Oracle Big Data Connectors,该系列软件产品能够帮助客户轻松访问通过Oracle数据库11g集成存储在CDH Hadoop分布式文件系统或Oracle NoSQL数据库中的数据。

  硬件加速Hadoop

  硬件厂商走在Hadoop行列里面,似乎有些让人惊讶,但是,通过以往的经验来看,基于硬件的数据加速,往往比单纯软件加速更加有效。为何硬件巨头热衷于Hadoop发行版?那是因为,能够驾驭大数据的最佳方法就是亲自“玩”Hadoop。

  2013年2月,英特尔宣布推出自己的Hadoop发行版Intel Distribution for Apache Hadoop,其中囊括了英特尔提供的HDFS、YARN、HBase和Hive等增强套件。

  英特尔的想法是,通过硬件和软件的改善,让英特尔的芯片在预测分析、云数据收集和具体任务处理等领域有更好的性能,从而帮助客户打造一个面向大数据应用的Hadoop高效平台。

  不过,经过一年多的实践之后,英特尔最终还是在2014年3月停止发行自己的Hadoop发行版,转而支持在Hadoop领域资格更老的Cloudera的

  同时,英特尔投资部门前后向Cloudera投资了数亿美元。

  与英特尔一样的硬件厂商,还有EMC。2010年EMC通过收购Greenplum正式进入了数据仓库市场。EMC与Hadoop领域的翘楚Hortonworks合作,将自身存储技术和Apache Hadoop结合起来,发布了自己的发行版Greenplum HD。

  华为在Hadoop社区中的贡献者和提交者也是国内最多的,可谓是国内在Hadoop领域关注时间较早,投入人力最多的公司之一。华为多年来在Hadoop方面的投入,使得华为与国际IT巨头在大数据领域处于同一起跑线上。

  目前来看,华为推出了一款基于开放社区发布的Hadoop发行版FusionInsight Hadoop。该版本基于华为自主研发的Hadoop HA平台,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预。

  同时,该版本包含了开放社区的主要软件及其生态圈中的主流组件,并对这些组件在高可用性、安全、易管理、性能方面进行了大量优化。并且,该版本针对开放社区Hadoop增强了商务智能分析能力,集成各种数据分析组件的同时加强与传统商务智能分析平台的集成,让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中洞察商机。

  下篇:先机与商机

  在传统BI和数据仓库领域,很难再有新公司还能撼动现在的市场格局。在大数据需求旺盛的背景下,基于Hadoop开源项目的新公司将获得得更多的新机遇。从Hadoop诞生的那一天起,国外如Cloudera、Hortonworks、MapR等新公司就相继成立,抢占了市场的先机。如今,它们都已经成为Hadoop领域的佼佼者,即使很多财大气粗的国际IT巨头要进入Hadoop领域,也会优先考虑与它们合作。

  Cloudera公司成立于2008年,CDH为其Hadoop发行版。对于Cloudera来说,2014年与英特尔深度合作是一次英明的决定,这次合作让Cloudera得以借助英特尔的渠道进行全球化营销。

  2009年成立的MapR公司,在Hadoop领域显得有点特立独行。MapR认为,Hadoop的缺陷来自于其架构设计本身,小修小补不能解决问题。于是,MapR用新架构重写了HDFS。结果证明,MapR是对的,HDFS的私有替代品比当前的开源版本快3倍,同时也通过API与其他Hadoop 发行版保持兼容。

  Hortonworks公司创立于2011年,HDP是其Hadoop发行版。Hortonworks最为吸引合作伙伴和客户的地方是,公司成立之初吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,这些工程师均在2005年开始协助雅虎开发Hadoop,这些工程师贡献了Hadoop 80%的代码。

  2011年,刚刚成立的Hortonworks曾因为“谁对Hadoop贡献最大”的争论与Cloudera有一次小摩擦。不过,随后Cloudera公布了一张各厂商贡献的Hadoop源代码百分比,显示了当时各厂商对Hadoop的贡献,同时也似乎在影射出各厂商在Hadoop领域的话语权。而国内一些基于Hadoop项目建立起来的大数据新公司,正在踏实地前行,为国内各行业的企业客户普及和应用Hadoop做出自己的努力。

  不过,孔宇华认为,国内基于Hadoop的创业公司还有很多机会,但是从基础平台的市场切入难度较大,而基于Hadoop做一些数据的应用开发机会更多一些。

  北京红象云腾系统技术有限公司(以下简称红象云腾)成立于2013年5月,2014年5月份获得百万级天使投资。EasyHadoop社区发起人和负责人、Cloudera CCDH认证中国区第一个通过者、红象云腾创始人童小军表示,红象云腾专注于企业大数据引擎研发,致力于将大数据(Hadoop/Spark等)技术带给更多的中国企业。基于Hadoop,红象云腾定制开发了RedHadoop Enterprise CRH企业版(红象大数据平台)。在这个平台上,红象云腾已经构建了相应的分析应用程序,例如,基于非结构化数据库技术构建安防的“视频分析系统”和基于实时分析查询技术构建商业智能的“数据工厂系统”。

  童小军透露,红象云腾即将在8月底发布集成批处理(MapReduce)、流处理(Storm)和内存计算(Spark)的三个引擎,并且提供一键式安装部署,而且可以做到安装过程清晰可见、简捷易懂。值得一提的是,童小军还有一个远大的计划,基于RedHadoop Enterprise CRH3打造一项面向移动APP的大数据云平台公有云服务——红象数据云(RedCloud.cn)。

  童小军表示:“未来,我们将在RedCloud.cn上做一个开放的平台,吸引更多的初学者进入社区,所有移动APP都可以直接调我们的API,租用我们的服务。”

  同时,Spark的出现也让星环科技CTO孙元浩看到了商机。孙元浩认为,Spark让中国的创业公司可以与国外一流公司站在同一个起跑线上竞争,并且有机会超越国外公司,是一次难得的机遇。在Spark出现前,孙元浩受Google Dremel的误导,开发新的MPP处理引擎。经过近一年的尝试,孙元浩还是回到MapReduce计算模式这个起点上。2011年底至2012年初,大数据产品竞争的焦点转移到SQL on Hadoop上,当时孙元浩正在寻找一种更高效的Hadoop MapReduce实现方案。

  孙元浩认为:“经过近10年的演化,MapReduce计算模式被证明是高可扩展和高度容错的,只是Hadoop MapReduce的实现比较低效。我们需要做的是重新实现MapReduce。”当Spark宣称比MapReduce快100倍时,一下就吸引了孙元浩的注意。经过仔细评估后,孙元浩认为,Spark是MapReduce计算模式的一个全新实现,Spark架构设计的巧妙、与Hadoop良好的兼容性成为最终促成孙元浩以Spark作为重点发展方向。孙元浩指出星环科技在Spark上的两点创新。

  创新之一是提出RDD(Resilient Distributed Dataset,弹性分布数据集)的概念,所有的统计分析任务由对RDD的若干基本操作组成。RDD可以被驻留在内存中,后续的任务可以直接读取内存中的数据,因此速度可以得到很大提升。创新之二是把一系列的分析任务编译成一个由RDD组成的有向无环图,根据数据之间的依赖性把相邻的任务合并,从而减少大量的中间结果输出,极大减少了磁盘I/O,使得复杂数据分析任务更高效。

  基于这两点创新,企业可以在Spark基础上进行批处理、交互式分析、迭代式机器学习、流处理,因此Spark可以成为一个用途广泛的计算引擎,并在未来取代MapReduce的地位。

  目前,星环科技提供的交互式分析引擎名叫Inceptor,从下往上有三层架构,最下面是一个分布式缓存(Transwarp Holodesk),可以建在内存或者SSD上,中间层是Spark计算引擎层,最上层包括一个完整的SQL99和PL/SQL编译器、统计算法库和机器学习算法库,提供完整的R语言访问接口。

  无论是对企业用户还是对初创企业来说,Hadoop都是一个美丽的梦想,不过,摆在我们眼前的情况是,并非每个企业都有能力把这个梦想变为现实。

关注读览天下微信, 100万篇深度好文, 等你来看……