一周实现大数据可视化分析
- 来源:中国计算机报 smarty:if $article.tag?>
- 关键字:大数据 smarty:/if?>
- 发布时间:2014-08-19 12:50
——敏捷BI助艾瑞咨询集团实现互联网的大数据分析
当前,一提到大数据人们就会想Hadoop,它似乎成为大数据的“代言人”。不可否认,Hadoop在集群扩展性和成本上都有巨大的优势,但是,Hadoop并不适合做实时分析系统。
因此,很多企业都会利用Hadoop实现数据存储,再通过其他工具实现对大数据的高速捕获和实时分析。这里,我们将通过艾瑞咨询集团的一个真实案例,解读一下敏捷BI如何和Hadoop进行互补,帮助其实现互联网大数据分析的。
定制化项目效率低下
艾瑞咨询集团(iResearch)是一家专注于网络媒体、电子商务、网络游戏、无线增值等新经济领域,深入研究和了解消费者行为,并为网络行业和传统行业客户提供市场调查研究和战略咨询服务的专业市场调研机构。
目前,艾瑞咨询集团可以向企业提供线下报告和软件两种定制化咨询报告服务。但是,企业客户的定制化需求非常多变,艾瑞咨询集团生成一份线下报告交付周期需要3至4周,提供软件的交付周期则需要半年。再加上项目所需人工成本升高、迭代周期延长,艾瑞咨询集团往往不敢承接太多定制化项目。
通过调研,笔者发现了艾瑞咨询集团的真正需求:根据时间维度和网站汇总对用户的来源地区、来路域名、页面访问次数、停留时间、有效访问次数、跳出率、回访者、新访问者、回访次数和回访相隔天数等相关数据进行统计分析,并且还能够在动态添加条件之后,通过对监测用户行为获得的数据进行分析,以最终得出更加详细、清楚的用户行为习惯。
因此,艾瑞咨询集团迫切需要一种更加敏捷、高效的大数据分析工具提升定制化业务的效率。
大数据面前:敏捷BI PK传统BI
在解决艾瑞咨询集团面临的难题时,传统BI的做法是,IT人员事先根据需求分析进行建模,建好二次表或打Cube并提前汇总好数据,业务人员才能在前端查看到分析结果的报表。虽然这种做法很成熟,但是解决不了艾瑞咨询集团的难题。
首先,业务人员查看的报表相对静态,分析的维度和度量的计算方式已在建模时预先设定好,不能更改。例如,定好了求和或求平均数,再想改成求方差必须再去修改模型。
其次,分析需求变更时,业务人员不能直接调整报表,需要IT人员重新建模或修改已有分析模型,耗时较长,响应速度较慢。
最后,有些企业的数据量很小,也需要按照此流程和架构来进行大费周折的数据分析。
造成这些问题的本质原因是,过去的技术架构针对海量数据的计算能力不足,企业用户需要通过建模、二次表、Cube提前进行数据运算汇总。
艾瑞咨询集团希望为企业客户提交这样一份分析报告,不仅能看还能动态分析。对于艾瑞咨询集团来说,数据展现应该是起点而不是终点。看到了数据,要能交互式分析、深入向下挖掘,要能发现问题并找到答案,还要能采取行动。与数据交互的过程要足够快,如果用户每次点击需要等三五分钟才出结果,就无法进行交互分析。
并且,分析报告应能让非IT部门的同事直接在分析平台上做出来。不能把所有的分析报告需求都提交到IT部门,这样会严重增加IT部门的工作负担。同时,敏捷BI的实施和操作要简单化,让业务人员可直接使用。
同时,分析报告需求经常需要牵涉到数据层的改动,需要IT部门去改进数据层和业务层,传统BI平台需要一两个月才能完成模型梳理。敏捷BI无需事先建模,可以在分析过程中灵活调整分析维度和报表展现,需求变更可以在一天之内响应,提升企业的洞察力决策力。
与传统BI的重量建模、统一视图不同,敏捷BI采取轻量建模、N个视图的方法,不建二次表和Cube,数据导入后可以直接进行分析,并且业务人员可以实时调整分析的维度和度量的计算方式,极大地增加了灵活性,真正做到和数据对话。
既然有这么便捷的方式,为何传统BI不采用这种架构呢?那是因为,传统技术架构没有引入大数据技术,面对海量数据无法在用户点击后的几秒内就展现企业客户需要的分析结果,因此必须通过建模提前把数据汇总好,才能保证分析报表展现时的速度。
因此,实现敏捷BI的前提是采用新架构处理数据,其涉及的技术包括分布式计算、内存计算、列存储、库内计算等。敏捷BI可以通过更低的成本、更短的上线周期,快速让企业洞察到数据的含义和价值。
业务效率数倍提升
深入研究艾瑞咨询集团要分析的数据,笔者发现,艾瑞咨询集团每天要分析的数据量达几千万条,且不同企业客户的分析需求各不相同。因此,复杂多变的多维度分析需求对分析工具的分析性能提出了更高的挑战,而传统的数据库和Hadoop架构已经无法满足高性能和即时分析的需求。
为此,艾瑞咨询集团考察过国外一些知名的产品,但是当他们获知产品的价格和后续的服务费用之后只能放弃。而国内大多数的分析工具大多是上一代BI,需事先建模再进行分析,难以应对灵活的多维度分析变化需求,且针对大数据量的处理能力不能满足要求。
最终,艾瑞咨询集团选择了永洪敏捷BI技术。当艾瑞咨询集团将三个月的细节数据(约50亿条)导入敏捷BI系统,直接就可以展现出定制分析报告。对比原先基于Excel和SQL编程的分析方法,艾瑞咨询集团的业务效率获得数倍的提升:线下报告交付周期从3至4周缩短至小于1周,软件交付从半年缩短至一个月。
同时,艾瑞咨询集团原来由于担心需求变化导致没有能力交付的很多项目被收入囊中。采用敏捷BI工具后,艾瑞咨询集团可以在几天内快速搭建原型向客户展示,任意的需求变更都可以一周内调整完毕。这种快速原型试错的方式,使得艾瑞咨询集团有能力承接很多此类项目。
由于业务效率的极大提升,有能力承接更多的项目,艾瑞咨询集团的收入空间也出现了数倍的增长。与此同时,艾瑞咨询集团的客户满意度也稳步提升。
不仅如此,为了提供更加直观可交互的分析报告,提升企业用户体验,艾瑞咨询集团基于敏捷BI工具,构建了一个新型SaaS平台。艾瑞咨询集团把企业客户用Hadoop架构存储的数据,通过敏捷BI提供的接口导入到数据集市内,然后通过敏捷BI快速呈现出结果。
事实上,Hadoop和敏捷BI都有各自适用的不同业务场景,两者是相互补充的关系。当前,很多企业都采用Hadoop实现数据的存储,然后把Hadoop数据导入敏捷BI基于分布式内存计算的高性能数据集市中,之后再进行数据可视化分析。鉴于现在Hadoop在企业的应用相当广泛,永洪敏捷BI产品也支持Hadoop数据源的连接。
艾瑞咨询集团合理利用了自己以前花费人力和资金搭建起来的Hadoop架构,使得他们之前的投入没有浪费。但是,对于以前没有Hadoop架构的企业来说,永洪敏捷BI也可以很好地集成。
通过销售SaaS账号也为艾瑞咨询集团新增一项长期稳定的收入,一改原来仅仅依靠独立项目的单一业务模式。艾瑞咨询集团旗下子机构迅速跟进敏捷BI的使用和新模式的改变。同时,SaaS平台的构建也使得艾瑞咨询集团将自己的价值定位从媒体/咨询服务公司向提供大数据服务的互联网应用提供商转变,大幅提升了公司在资本市场的价值。