Hadoop上的中国神兽
- 来源:IT经理世界 smarty:if $article.tag?>
- 关键字:Hadoop,大数据 smarty:/if?>
- 发布时间:2017-03-14 11:12
“一流企业做开源,二流企业做品牌。”这是Kyligence公司联合创始人兼CEO韩卿的行业新说。
当开源技术被广泛使用的时候,也就成了事实上的标准,从Hadoop已经成为事实上的大数据标准就可见一斑。
韩卿及其团队在过去几年为中国开源界在国际舞台赢得了历史性突破。2013年,还在eBay工作的他发现,在新兴的大数据平台Hadoop之上,缺乏标准的、快速的数据分析技术。于是,韩卿团队从无到有打造了超大规模数据分析技术麒麟(Apache Kylin)。它能在Hadoop上提供毫秒级的标准SQL查询,更具备处理PB级数据的能力。2014年,在eBay应用Kylin的生产系统上线后,这个项目被开源出来,并很快加入了Apache软件基金会成为其孵化项目之一。
开源是一个态度问题
“我个人认为,特别是在基础技术领域,开源一定是未来的一种方式和标准。”韩卿说,“一个项目,如果能做成一种使用率很高的开源技术,其实也就成了行业的一个标准。”
开源后,Kylin成为Apache软件基金会中非常活跃的社群之一,并在2015年成为Apache顶级项目,这是首个来自中国的Apache 顶级项目,与Hadoop、Spark处于一个级别。韩卿也成为首个也是目前唯一的来自中国的Apache软件基金会副总裁。
百度、美团、京东、今日头条、国泰君安、中国移动、OPPO等拥有海量数据的企业先后使用了Kylin。以美团为例,它的外卖和其他数据分析基本都跑在Kylin上。
同时,众多的工程师人也积极参与和贡献到了Kylin社区,比如美团是最早采用Kylin的公司之一,目前有3名开发者成为麒麟项目的Committer(主要贡献者),最新的一位Committer通过在美团的实践,将Kylin一个基础算法的效率提升了10倍以上,大大彰显了他们的技术实力。
如今,韩卿已从10多年前那位“想要一个Apache邮箱”的开发者,成为Apache Kylin项目委员会主席。他说,中国开源界已发生巨变,非常多的中国公司为开源技术Spark、Hadoop和OpenStack等做着贡献,也涌现出越来越多的中国原生项目和团队。这些项目都经历了国外不可能碰到的数据量及环境的挑战和检验,质量和性能都很靠谱。
去年,在华为、阿里等几个项目进入Apache基金会过程中,韩卿也给予了很多建议和帮助,目前也是阿里两个Apache孵化项目的导师(Mentor)。关于如何做开源,韩卿提到“其实,开源是一个态度问题,你不是为了一个KPI、一个噱头或Marketing,你是实实在在把东西贡献出来,而且你要不断贡献和发展它——运营社区,不断寻找用户,不断发展Committer,不断与其他开源项目建立交互,让社区良性发展。这是我们的经验。”
开源项目背后的创业公司
每个成功的开源项目背后,都有一家好的创业公司,比如Hadoop背后是Cloudera,Spark背后是DataBricks。
在Kylin 走上正轨后,韩卿也在思考这个问题。“中国市场不比美国小,我们又拥有核心技术,为什么不去试试呢?”基于这样的想法,韩卿与项目其他核心成员一起,在2016年初创建了Kyligence公司——名字由Kylin(麒麟)和Intelligence(智能)组合而来,寓意是让这匹数据“神兽”更加智能。
公司创建后,很快推出了Apache Kylin的商业版本KAP(Kyligence Analytics Platform)。商业版本是开源企业采用的最直接和最广泛的商业模式,美国红帽公司是这个模式最经典的代表。把开源技术和软件做成一种更稳定易用、更安全、兼容性更好、功能更丰富的企业级版本,通过付费“订阅”方式,为用户提供技术支持和咨询服务。同时,韩卿团队也在不断创新,在企业版中增加了更多的企业级特性。
KAP定位在Hadoop上的数据仓库和商务智能(BI)。它具备企业级服务软件的各种特点——稳定、安全、易用等。尤其是Hadoop目前已分化出很多版本,Kyligence与Hadoop各供应商合作,完成了产品认证,具备更广泛的兼容性,大大降低了用户采用新技术的门槛。
在推出商业版本后,Kyligence也在探索其他商业模式。熟悉韩卿的人发现,每隔一段时间,他就会对商业模式有一些新的实践和感悟。最新推出的自动化诊断、优化在线服务KyBot就是一种模式创新:用户通过Agent等方式自动将Kylin的相关日志上传到KyBot服务,而在云端通过知识库及数据挖掘等技术为用户提供快速的、自动化的分析和诊断,指导用户就行相关系统的优化和性能调优,为用户提供及时有效的支持。
现在,Kyligence正在迈出更新的一步,在微软Azure和亚马逊AWS等公有云上,提供大数据分析服务,去年已经登录了Azure中国镜像市场,据悉他们正在和微软及亚马逊进行合作,很快就会登陆国际版镜像市场。
“虽然大部分国内大数据项目都部署在内网中,但从全球来看,越来越多的企业把生产应用系统放在云上。于是,在云上提供数据分析能力,便成了他们的直接需求。”韩卿说,“我们就为用户提供这样的解决方案。”
这是一类被认为含金量很高的服务,对技术要求及团队能力等都是非常大的挑战,但韩卿表示已经在去年做了很好的技术和人才储备,很快就会提供,并且表示这些服务未来也会在国内的各大公有云上提供。
传统企业才是金矿
虽然Kylin项目源自eBay这家互联网公司,目前的应用者以互联网企业居多,但韩卿说:“公司的商业重点是传统企业。”实际上,Kyligence目前的收入都来自传统企业,这些客户分布在金融、电信、制造等领域。
韩卿观察到,传统企业在近两年的互联网化中投资力度巨大,除了搭建非常强的团队外,积极与外界专业公司合作,来构建这些企业的大数据和云计算能力。“为什么会采用这种合作模式呢?因为他们在抢时间。”
例如,国内一家拥有海量用户的手机企业正基于KAP,为自己的分析人员和前端业务人员,构建数据分析自助服务平台。这让过去要等几个星期的分析结果变成了自助服务,分析时效缩短到了秒级,使得大数据平台快速响应业务变化成为了可能。而另一家国内Top5的证券企业正使用KAP做日志分析。从客户端登陆到中间网络传输到最终的交易系统,系统信息一目了然,并且可以快速的查询相关日志。证券公司业务人员因而能实时精准定位相关故障从而更好的提供服务,提升了客户满意度。
韩卿看到,这些传统企业客户都是从Teradata、IBM或SAP的传统数据仓库和BI工具转到KAP上来的。“从性能到成本考虑,他们现在都需要新技术来替换。”
为了平滑过渡,KAP遵从了数据仓库的方法论,采用了标准SQL接口,用户可无缝迁移。分析师和管理人员也不用担心在大数据时代原有的经验和技术会被淘汰,他们基本不需要重新学习,就能上手使用。标准的技术也降低了人员成本和学习曲线,众多原来的BI人员、分析师等一下子就掌握了大数据技术,而无需学习Java、MapReduce、Spark等即可完成超大规模数据的分析。
KAP还在自动化和智能化上花费了很多精力。“现在用麒麟实施大数据项目,是不需要写任何程序的。”国美在线从接触到生产系统上线仅用了1个月,而他们在选型时曾评估,如果采用其他技术可能需要五六个月。
不为用户提供定制版
Kyligence目前支持了全球150多家用户。一家创业企业怎么去支持数量不断扩大且是自己员工人数数倍的客户群?
韩卿说,这完全依靠标准化。“我们没有为任何一家行业用户提供定制。这就是通用化产品的威力。”
“做通用化产品、减少定制”一直是供应商的梦想。但在现实中,越是大客户,往往越会提出定制化需求。Kyligence怎么说服客户采用统一的产品?韩卿提醒我,Oracle数据库也没为任何人做过定制。“这需要对产品技术发展方向有很强的把控能力。”Kyligence是由Apache顶级开源项目核心团队组建的创业公司,这是一个重要条件。“只有把握了项目发展方向和底层核心技术,并不断创新,才能做到产品通用化。”
今年初,Kyligence从千余家企业中脱颖而出,成功入选微软加速器·上海首期成员。这令韩卿团队非常振奋。除了品牌、全球影响力、渠道等给Kyligence带来的效益外,韩卿最期待的是微软加速器给创业公司的指导。“这些指导可以给我们以启迪——如何搭建一支有战斗力和高效的团队,不断抓住机会,做出改变,避免一些坑,从而成为一家成功的企业。”
文/赵艳秋