Hadoop变局

  • 来源:IT经理世界
  • 关键字:Hadoop,开源
  • 发布时间:2019-02-21 11:55

  在开源已经逐渐成为一种政治正确的时候,开源项目最终会走向哪里?

  当行业排名前两位的企业选择合并,往往意味着垄断巨头的出现和某种模式下市场竞争的告一段落。

  不久前,Cloudera和Hortonworks的宣布合并,让大数据领域的竞争也变得扑朔迷离。两家上市公司为什么要合并?对Hadoop这又意味着什么?都是值得思考的问题。

  Hadoop的商业化

  Hadoop几乎可以算作大数据的代名词,随着开源技术的被广泛使用,Hadoop已经成为事实上的大数据标准。十几年前,企业数据还普遍是在数据仓库中处理,使用Oracle、SAP、IBM等数据相关软件,但随着互联网的发展,数据类型的多样化,对海量结构化、半结构化数据以及流式数据的处理需求,都成为了旧式商业软件的瓶颈。

  2003年,GoogleLab开发了Map/Reduce和GoogleFileSystem(GFS),在两年后的秋天,Hadoop由ApacheSoftwareFoundation公司作为Lucene的子项目Nutch的一部分正式引入。这一能够对大量数据进行分布式处理的软件框架正式出现,给大数据软件市场带来了新的机会。2006年3月,Map/Reduce和Nutch Distributed File System(NDFS)分别被纳入Hadoop的项目中。

  对于数量巨大但单条数据价值较低的数据类型,比如舆情数据,在传统的数据仓库中进行分析的性价比较低,远不如在基于Hadoop的平台上更能体现价值。因此在互联网领域,Hadoop得到了普遍的应用,比如Facebook、百度、雅虎,都使用Hadoop技术进行数据处理等工作。作为一项开源技术,虽然可以免费下载,但Hadoop本身却很复杂,对许多有大数据处理需求的公司来说,让IT部门基于Hadoop进行开发的成本太高,难度也太大。因此,如Cloudera和Hortonworks这样的创业公司出现了。

  Cloudera成立于2008年,在2009年,Cloudera发行了第一个Hadoop集成版本——CDH。CDH产品包括企业版和开源版,在企业版中,包含管理组件Cloudera Manager,这个组件是闭源的,可以对计算机集群进行管理、部署、升级,监控,提供包括数据管理、数据追溯、安全性保障和多云架构管理等功能,在3个月的试用期后,需按照部署节点的数目按月交费,这也是Cloudera的主要盈利模式。

  而Hortonworks是从雅虎Hadoop团队剥离成立的创业公司,不同于Cloudera,Hortonworks的软件是完全开源的,通过技术支持来盈利。另外还有一家MapR,这三家公司也常被称作是Hadoop的三大发行商。

  将开源软件商业化的价值在哪里?Cloudera大中华区的技术总监刘隶放曾对此解释:“开源并不意味着免费”。对一些技术实力相对较弱的企业,如金融、电信、制造业等行业,将带来大量的IT开发成本。在这个过程中,由于软件被不断发现BUG,以及需要针对企业情况去修改和打补丁,每当开源项目向下一个版本跃进时,所有的补丁都要在新版本上进行验证,会带来非常大的工程化难题,造成积重难返甚至无法更新只能停在旧版本上的窘迫——而有的开发误判了开源项目的生命周期,甚至会出现开源项目中止的尴尬。

  而除了促进Hadoop的易用化之外,Cloudera和Hortonworks的价值还体现在版本演进中,尤其是Cloudera,CDH版本中26个项目有18个是由Cloudera发起或研发的,占据了商业版平台的50%,在下载平台上,甚至超过了60%,是主流的开源版本。这意味着Cloudera在开源社区里有足够的话语权,让产品受益于开源社区的创新力而又不会失去控制。

  也因为如此,市场对Cloudera以及紧随其后的Hortonworks都报以期待,2014年Hortonworks成功上市,而同年Cloudera则获得了来自英特尔7.4亿美元的投资,估值高达41亿美元,成为大数据公司中最耀眼的独角兽。

  合并前后

  对于这一轮技术革命带来的商业演进,我们习惯称之为“ABC”时代,然后相对于A(人工智能)和C(云计算),前者涌现了大量的独角兽企业,并在应用上呈现了遍地开花的景象,后者已经实际上出现了诸如亚马逊等的云计算巨头。而以Cloudera等为代表的大数据公司,却显得有些乏力。

  无论是Cloudera还是Hortonworks,,都处于持续的亏损之中,盈利水平的不足体现在其财报和股价上。Hortonworks上市之初股价曾一度接近30美元,但之后一直在15美元下的地点徘徊;而Cloudera提交IPO申请时的估值和3年前接受英特尔投资时的估值一样都是41亿美元,今年上半年时,由于对2019年收入的预测低于市场预期,其股价一度下跌超过28%,目前市值18.62亿美元。

  造成这一现象的原因很多,首先是Cloudera与Hortonworks等公司的竞争,但竞争并不局限于Hadoop领域。比起Hortonworks和MapR,处于领头位置的Cloudera更希望与Oracle、SAP等软件公司对比。但开源软件的商用化,意味着需要在研发上投入大量的成本,以满足大型企业的需要,而在实际销售中,由于大企业对稳定性、业务连续性等的考虑,对比传统企业软件并不一定会占到优势。

  另一方面,是来自云计算公司的跨界挑战。云计算的发展将越来越多的企业囊括其中,并催生了亚马逊AWS等巨头,而他们本身也会提供托管的Hadoop/Spark服务,如AWS的Elastic Map Reduce(EMR),不仅集成在云平台内部而且成本也更低。而对象存储服务,如AWS S3,Azure Blob存储和Google云端存储,从成本上来说,也低于Hadoop的存储成本。

  在2017年的一次采访中,Cloudera零售、制造及物联网行业的行业专家Dave Shuman曾表示,Cloudera与云计算公司并非竞争关系,而是合作伙伴关系,重视数据资产的大型企业依旧需要Cloudera的产品。

  与此同时,Cloudera也一直致力于向云计算转型,目前在公有云领域,Cloudera已经可以在AWS等云平台上做到存储对象分离;在私有云领域,也可以支持基于OpenStack和VMvare的私有云平台,以及混合云的部署。

  然而来自云计算公司的竞争压力依旧客观存在,实际上,今年8月份数据库制造商 Redis Labs 将开发的Redis 模块的开源协议的授权方式变更,矛头便指向了借助开源获利的云计算公司。

  在今年的10月初,Cloudera和Hortoworks宣布全股票对等合并,其中Cloudera的股东拥有60%股权,Hortonworks的股东拥有40%的股权。在Hadoop的领域,这意味着“强强联手”,而在大数据领域,则更像是“抱团取暖”。但毫无疑问,这至少可以帮助两家企业结束近十年的竞争,并且依靠垄断地位早日摆脱长期亏损的窘状。受此消息影响,两家公司都随后大涨,据2018年10月2日收盘价计算,两家公司的总股价达为52亿美元。

  合并后的两家公司拥有超过2500名客户,年收入将达到7.2亿美元,降低1.25亿美元成本,并有超过5亿美元的现金。在技术上,两家公司也可以进行互补,不过由于双方存在很多重合的业务,意味着将在组织架构和产品结构上进行整合(主要是Cloudera的CDH和Hortonworks的HDP两条产品线的合并问题),不过他们也承诺,在3年内会继续提供两家公司的服务,考虑到Cloudera的产品订期为1年和3年,这基本可以保证用户的权益。而新的公司也会在发布新的统一版本的产品。

  目前有关合并的细节还有许多在挑战中,不过原Cloudera的CEO Thomas Reilly,也是新公司的CEO对此十分看好,表示新的公司将成为行业领导者,为客户提供更好的平台,创建世界首个企业数据云,并将在云计算、物联网和容器技术等领域继续发力。

  而从第三方的角度来看,这无疑会影响整个Hadoop的生态,开源大数据目前已经成为互联网企业的基础设施,两家公司合并后,意味着Hadoop的标准将更加统一,长期来看新公司的盈利能力也将大幅提升,并将更多的资源用于新技术的投入。

  对此,“三驾马车”中的MapR曾表示“两个错误也不会导致一个正确”,但从体量和级别上来看,新公司将基本代表Hadoop社区,其他同类型企业将很难与之竞争。而新公司未来也可能会面对和云计算公司更直接的竞争,或者如Redhat一样被巨头收购,这些猜测都要等待新公司重组的进一步尘埃落定了。

关注读览天下微信, 100万篇深度好文, 等你来看……