大数据热持续升温带动了相关工具的升级换代,数据分析也是其中之一。为了从海量数据中挖掘出有价值的信息,从而制定出更为科学、合理的决策,离不开数据分析。在大数据时代,数据分析一方面要应对大数据量的冲击,需要高性能,另一方面,也要响应更多普通用户想从大数据受益这一需求,即数据分析的“平民化”。
“高性能、可视化、自助式服务正在成为新一代大数据分析工具的基本要求。数据分析正在变得越来越容易,从而让更多的公司高管或者普通业务人员也会利用它们来解决自己的问题。”SAS中国公司首席咨询顾问和SAS中国区分析团队/金融业售前团队负责人张磊告诉记者,这是用户需求和技术进步共同作用的必然结果。
据记者了解,现在有些用户尽管购买了多种数据分析工具,但达到预期效果的很少。一个原因是,现在IT系统面对的需求很多,数据分析涉及数据量很大,性能压力,等分析结果会很久。另一个原因在于,业务部门有需求想做分析、想看数据,还要依赖于IT部门的帮助,因为没有一个很好的工具,让业务人员可以自助分析。
而IT技术的进步为新一代的数据分析工具奠定了很好的基础。据张磊介绍,面对海量的数据对高性能的要求,内存计算、库内分析都已成为厂商常用的技术手段,像SAP的HANA、甲骨文的Exadata一体机都不约而同地采用了内存计算,而很多数据库和数据仓库都支持库内分析技术和MPP架构。另一方面,不少产品采用软硬一体机或者专有设备的形式也在一定程度上提升了性能。新一代的数据分析工具可以充分利用这些技术来提高数据分析的能力。
不过,让数据分析工具简单易用并不容易。众所周知,数据分析是一门需要极强专业知识的职业。关联分析、回归分析、时间序列分析以及决策树模型,相信一般人听到这些名词都会头大,而要搞清楚和明白就并不容易,而这些都是数据分析常用的方法。实际上,在记者接触的从事数据分析的两个代表性的厂商SAS、SPSS(被IBM收购)的技术人员或者顾问不少人都拥有博士这一事实,似乎也可以佐证这一行的门槛。
显然,无论是从厂商还是用户的角度出发,高技术门槛都不是好事,这不利于技术的普及。而从事数据分析的厂商并也一直致力于研发更通俗、易用的数据分析工具。张磊透露,SAS推出的名为可视化分析(Visual Analytics,简称VA)的数据分析工具,其卖点之一也就是简单、易用。
张磊表示,VA是一个可视化的数据分析工具。它主要面向组织内进行数据发现和探索的人,包括决策人员、分析人员、统计人员以及数据科学家,可以帮助他们从海量数据中获得更深入的分析洞察。尤为特别的一点是,使用者无需数据分析的专业背景,借助数据分析工具提供的图形界面,普通的业务人员通过拖拽也可以完成关联分析、回归分析等复杂的数据分析。
实际上,可视化代表了数据分析工具的发展方向,原因之一是,可视化可以帮助分析专家和业务用户创建各种分析图形,从而不仅能很直观、清晰地描述出已发生的事实,而且提供了一种可视化的交互分析方式(甚至是自助的方式)来发现新的事实。“比如,VA提供了一个简单的图形界面,只要通过浏览器就可以操作。而且,VA还支持iPad等移动终端通过报表和KPI等方式,来显示和分享大数据的分析结果。”张磊说。
另外,作为大数据时代的数据分析工具,满足大数据的分析需求也是VA的基本特性。这主要表现在两个方面,其中之一就是高性能,为了应对性能瓶颈,VA同时采用了前面所提的内存计算、库内分析以及网格计算,从而将海量数据的分析从几天、几个小时缩短为几分钟;另一个特性是,它与大数据最常用的处理平台Hadoop的紧密集成。VA的一种典型架构是直接部署在Hadoop平台上,对Hadoop中存储的数据进行分析,从而简化IT系统的部署。
本报记者 邹大斌
……
关注读览天下微信,
100万篇深度好文,
等你来看……