Cloudera:商用大数据的开源革命
- 来源:IT经理世界 smarty:if $article.tag?>
- 关键字:Cloudera,商用大数据,IBM smarty:/if?>
- 发布时间:2018-09-04 09:49
在IBM工作15年后的刘隶放,来到Cloudera,迎来的是全新的商业模式。
大数据公司Cloudera的技术总监刘隶放,曾在IBM工作过15年,在经理的职务上负责IBM软件部北方所有数据相关业务的技术支持。入职Cloudera两年半来,他负责了Cloudera整个大中华区技术人员的管理工作,谈到在这两家公司工作体验的差异,刘隶放感受到了商业软件的巨大改变。
开源未来
数据的爆炸式增长和不断增值,是这一改变的根源。在过去的几十年间,如Oracle、SAP、IBM等公司也有很多数据相关的商用软件,但产品变化相对较慢。2005年秋天,Hadoop这一能够对大量数据进行分布式处理的软件框架正式出现,给大数据软件市场带来了新的机会,而Cloudera则是第一家基于Hadoop开发商用软件的公司。
在最初,开源项目还远不是企业的第一选择,但新的趋势,如数据类型的多样化,对海量结构化、半结构化数据以及流式数据的处理需求,都成为了旧式商业软件的瓶颈,而开源软件正是为例解决这些问题应运而生。由于参与者众多,可以快速的迭代更新以适应新的需求。比如对于像舆情数据这样数量巨大但单条数据价值较低的数据类型,在昂贵的传统数仓中进行分析性价比较低,而在基于Hadoop的平台上分析更能体现价值。但另一方面,企业在考虑开源项目的可持续性和可拓展性时,自身的IT部门能否驾驭开源项目,同样是一个问题。
刘隶放认为,企业CIO需要理解开源体系架构,并针对企业的具体情况选择最适合的组件以满足企业发展需求。“CIO的职责是服务企业业务发展需求,而不是自己开发软件。”在过去几年,开源项目如Hadoop正变得无处不在,但基于开源项目的开发维护,对于传统企业,如金融、电信、制造业等行业,将带来巨大的长期成本。在这个过程中,由于软件中不断的被发现BUG,以及针对企业情况去修改和打补丁,每当开源项目向下一个版本跃进时,所有的补丁都要在新版本上进行验证,会带来非常大的工程化难题,造成积重难返甚至无法更新只能停在旧版本上的窘迫——而有的开发误判了开源项目的生命周期,甚至会出现开源项目中止的尴尬。
开源并不意味着真的免费,在意识到这一点后,许多走了一段弯路的企业逐渐转向了如Cloudera这样的开源软件商用版上,以追求产品更高的可支持性。但在如雨后春笋般出现的开源商用软件公司之中,刘隶放认为,有一条标准,可以作为行业的分水岭。开源项目往往被诟病的一点就是无法做到“自主可控”,就如同不久前阿里云对国内基于OpenStack开发的云平台的质疑一样,许多开源商用软件,并不能做到和社区同进同退,一旦偏离开源社区的主线无法继续更新,就会丧失开源项目快速迭代的优势。但这一问题对Cloudera并不存在,在Apache社区中每一个开源产品都会有代言厂商,而Cloudera则是Hadoop最主要的那个,占据了商业版平台的50%,在下载平台上,甚至超过了60%,是最主流的Hadoop开源版本。
除了在社区中拥有较强的发言权外,在产品研发的原则上,Cloudera会将更改先提交代码到开源社区中,然后再集成在自己的平台上,这样就会避免产品与开源版本出现偏差,保持产品的长期可持续性。另一方面,针对商业版的客户,Cloudera会提供专业的现场服务,去完成平台的部署,比如在平台的安全性方面,Cloudera平台支持26个组件,都会置于统一的安全管理之下。在安装之后,还会针对运营人员,进行大数据平台的培训。美国的一家企业客户,就要求运营人员在测试平台上经过三个月的培训才可以接触核心的大数据平台。
“三步走”策略
刘隶放介绍,在大数据平台和企业传统数据仓库的结合上,Cloudera有“三步走”的策略。首先,是以数据仓库为主并进行补强,由于数据仓库一体机较为昂贵,过去企业大多采用3+1或6+1的模式,即3或6个月的保存数据加1个月的中间临时数据,过期数据则丢弃或放入离线数据库。而将历史数据卸载到Hadoop平台上,可以大大提升历史数据的使用效率。其次是半替代性的方案,将数据仓库的核心部分进行应用模块分解,逐渐转换到Hadoop平台,减少数据仓库的压力以专注于高效性的报表分析。第三阶段则是大数据平台完全替代数据仓库,包括ODS、历史库、灾备等,并支撑企业的分析服务,实际Cloudera在美国已经有大型企业客户实现了这一阶段目标。
而大数据平台对于数据仓库并非简单的替代作用,还有更多的衍生场景。从Cloudera的角度来看,有三个重要的方向:
第一个是云化,虽然目前业界在硬件和网络带宽等方面对此还有质疑,但仍被认为是未来的趋势所在。在公有云领域,Cloudera已经可以在AWS等云平台上做到存储对象分离,在私有云领域,也可以支持基于OpenStack和VMvare的私有云平台,以及混合云的部署。
第二个是机器学习,这也是大数据应用的重要场景,据了解Cloudera在检测、预测、模式识别等方向已经有大量的应用,落地于金融,工业等多个行业非常多的用户场景。
第三个是高级分析,即时下热门的“数据湖”,在“三步走”的策略中,对于还保留数据仓库的企业来说,说是对数据仓库的增强,而对于一部分之前并没有很强的数据仓库方案的企业,一步到位将数据仓库完全替换掉会是更具拓展性的方案。“我们可以肯定的是,大数据平台,未来一定会在企业数据湖和分析平台占据一席之地,可能现在只是一个补充,未来却会变成主导。”刘隶放说。
文/李昊原