破解大数据分析性能瓶颈

  • 来源:计算机世界
  • 关键字:大数据,SAS
  • 发布时间:2012-08-01 14:36

  在大数据的时代,企业需要能对大量的结构、半结构和非结构化数据进行快速分析的能力,而且相对传统的结构化数据,大数据通常意味着更大的数据量,同时其可利用价值要低一些,这就对大数据的分析和处理方法提出了更高的要求。

  “大数据具有三个特征,即海量(Volume)、数据结构多样(Variety)、数据生成速度快(Velocity),但在目前这个阶段,特别是谈到数据的分析和利用时,最要紧的还是性能问题,接下来才会是考虑数据的复杂性和处理速度问题。”SAS公司大中国区咨询服务和技术总监姚远在接受记者采访时告诉记者。

  作为专门从事数据分析的专业厂商,SAS对于数据分析引擎遇到的性能瓶颈有着更为切身的体会。实际上,这也正是SAS于不久前推出一款高性能分析产品(High-Performance Analytics, HPA)的主要原因之一。SAS的HPA含有一系列可在高度扩展、基于内存的分布式架构中执行分析的产品。利用它用户可以使用过去不可能使用的大量数据去研究和模拟各种场景,并显著提升架构复杂分析运算的处理速度,这其中可以是结构化数据也可以是非结构的数据。

  据姚远介绍,HPA之所以能克服数分析在性能上的瓶颈主要得益于其三项关键技术:首先是网格计算。基于它SAS可自动使用网络环境下集中控制的资源库,实现工作负载均衡、高可用性和并行处理;第二个是内存分析技术,这是类似SAP HANA所采用的技术,由于数据暂存在内存进行分析,少了数据从存储介质中存取的过程,从而提高了分析性能;第三个是数据库内分析,即把计算和分析过程直接加载到数据库中,数据少了从数据库中存取的过程从而提高处理的速度。

  “分析性能的提高并不是单靠某一种技术实现的,它其实是综合利用多种技术的结果。也正是有了这些技术,HPA才可以应对大数据分析和处理时的性能要求。”姚远说。

  姚远特别强调,一个好预测分析引擎在大数据固然很重要,但数据分析专家同样也很重要。因为数据分析是需要行业知识的,这有懂得行业的分析师,才有可能知道要分析什么,最终产生好的投资回报。

  本报记者 邹大斌

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: