数据分析技术解构

  大数据不是对传统数据分析的代替,而是补充,并且依赖过去人们建立的方法和数据分析技术。

  大数据是目前最热门的话题,不仅在IT界热,几乎在所有行业都热。各行各业都希望业内人员对大数据有所了解,希望大数据将来能够在这个行业发挥作用。

  从有数据分析的历史开始,人们就对根据需要收集到的有限量的数据进行分析。由于各种条件的限制,比如资源、计算能力等,人们都是在处理小量的、结构化的数据。一般的量级也就是在KB或MB。而大数据是在TB或PB的量级,并且是以半结构化和非结构化的数据为主,比如文本、图像、音频和视频等数据。对非结构化数据的分析目前还是在非常初级的阶段。

  由于大数据的特性,大数据分析跟过去的数据分析有很大区别。传统的数据分析软件都是使用的单线程或多线程的技术,软件运行在单一的机器上。这在百万级数据行的情况下,经过几十小时的运算,还是可以得到结果的。但是到了千万级或更多的情况下,基本上就无法运行了。因此,大数据分析需要新的数据处理技术。

  高性能分析技术

  提高数据分析处理速度的三剑客:网格计算、库内分析和内存分析。它们分别对应:数据的处理、数据的传输和数据的读取问题。

  网格计算就是分布式计算。它把一个巨大的计算问题分成许多小的部分,然后分配给多个计算机或刀片机进行处理,再把这些处理结果综合起来得到最终的结果。我们在一个4CPU、48核的系统下,把一个大的工作分成96个并发的工作,完成这个工作总共耗时2分钟42秒。而完成类似于96个工作中的一个小工作,就需要58秒。可见我们的分布式计算可以极大地提高数据处理的时间。

  库内分析就是把数据分析的功能、数据模型集成进入到数据仓库里面,这样无需从数据仓库中提取被分析的数据,减少了数据的传输过程,因此极大地提高了分析性能。同时,也保证了数据的安全和信息私密性。

  内存分析就是把需要分析的数据放到内存服务器中或内存数据库中,让分析程序可以随时读取,达到即时分析的效果。内存分析方法比传统的方法快,不仅仅是由于数据内存读取速度比硬盘读取快,还由于分析过程被分成了易于管理的小片,运行在并行的刀片机上。通常的内存数据处理速度可以比传统的提高几十倍到近千倍。

  上面的表格给出了高性能分析的实验数据。大家可以看到震撼性的结果,对10亿行的数据进行处理的时间由几小时变成了秒的量级。因此,使用高性能数据分析技术,我们就能够解决大数据数据量大的问题。

  大数据本身具有其特有的特性,分析软件必须使用高性能分析技术才能够解决数据量大的问题,而这些高性能分析技术对硬件系统有特殊的要求,比如多CPU、多核,具有大量的内存。这样大数据、高性能分析软件和大数据分析平台就变成了三位一体。就是说要做大数据分析,软、硬件都必须达到做大数据分析的这种能力。不具备这种能力,就不可能做大数据分析。

  非结构化数据分析

  谈完了大数据的大,我们再谈谈大数据的类型多样性。前面说到大数据主要是由非结构化数据组成。目前来说,主要是能够对文本数据做一些基本的分析。

  BI工具不能直接分析非结构化的数据。然而,专门的数据分析技术可以用来分析非结构化的数据和产生BI工具可以处理的数据模型。非结构化数据分析可以从利用自然语言工具测量关键词的密度开始。文本分析从词和解释中抽取相关信息,挖掘和结构化信息以揭示文档中和文档之间的模式、情感和关系。一个组合的文本分析架构包括几个部件:

  内容分类:使非常容易地找到需要的信息,使查询更快、更有效。内容分类可以包括具备预建的分类标准、网络爬虫、分面搜索、重复的文件辨认、文本总结等能力。

  本体管理:通过系统地和一致地定义关系,链接文本的存储。

  情感分析:自动地从数码文档中定位和抽取情感描述,精确地确定情感类别是正面的、负面的还是中性的或无类别的。

  文本挖掘:提供有力的方法探索非结构化数据采集,以找到从前未知的概念和模式。

  同时机器学习和深度学习也被看成是非结构化数据分析的主要方法。

  机器学习:通过算法,机器从大量的历史数据中学习规律,从而对新的样本做智能识别和预测未来。

  深度学习:模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如文本、声频和视频。

  目前,语音识别技术已经可以做到90%的正确率,将语音转换成文本就可以做分析了。但是对图像的解读还是很不成熟,更妄谈视频解读了,虽然视频也是由24幅帧频组成的。人们将希望寄托在深度学习上,希望通过更多的数据能够训练出一个聪明的模型,来解读文本、声频和视频数据。

  数据可视化

  人们通常使用的统计图表,例如条形图、饼状图、柱状图、散布图、曲线图等是数据可视化的基本方法。它们只能呈现数据的基本信息,对于具有各种复杂关系的大数据,就显得无能为力了。即使能够呈现,直观性也非常差。人们对大数据进行分析以后,利用计算机图形技术创建对应的可视化算法及视觉图像,就能够很好地展示数据内在的模式、趋势和关系。SAS的可视化产品借助于内存分析技术可以对10亿行的数据进行实时分析。它包括了数据管理、数据探索和即席查询、报告设计以及报告移动读取。

  云架构和大数据

  没有云计算,大数据现象也会按时出现。他们之间本来没有任何因果关系。但是云架构确实会影响到大数据分析的行为方式。目前各大公司建立的数据中心就是云模式的初级版本。软件的浏览器化更是为云计算模式的普遍采用做准备。云计算中心将是数据平台和分析软件运行平台。这种模式让用户可以在全球随时随地管理数据,做数据分析,查看分析结果。云的运营模式真正让个体和组织变得平等,个人也可以租得起过去买不起的软件和服务。

  大数据的另一面

  大数据分析结果有时候是不准确的或是有欺骗性的。谷歌将用户在其搜索引擎上搜索流感的数据进行统计汇总,通过建立的“谷歌流感趋势”(GFT)模型进行分析。然而其分析结果与美国疾病控制与预防中心基于全美各实验室检测报告得出的预测结果进行比较,却高出两倍多。GFT从5000万个搜索词中寻找可以拟合1152个数据点的最佳匹配。其实搜索词和流感趋势在结构上不相关,所以不可能预测流感趋势。当分析列表有上千列时,总会有两列是伪相关的。同时,谷歌还不断地改进GFT模型,以及用户搜索行为的改变,都会影响GFT的预测追踪。由于统计分析结果的不确定性,统计分析经常被有意或无意地滥用。统计学中常犯的错误就是逻辑错误:把相关性当成因果性;小样本得出大结论,以偏概全;刻意用统计方法放大比例。基本上每一个统计陷阱就是一个逻辑谬误。辛普森悖论和安斯库姆四重奏也是一样,不了解其中的奥妙,很容易让人产生误解或得出错误的结论。

  要正确地使用大数据的价值,就必须保证:数据的真实性,分析方法的正确性,理解分析结果的适用性。同时,投资数据分析要有回报,数据分析的结果要有实用价值,否则就是浪费资源,就不是合格的数据分析师。

  总之,大数据有其自有的特性,需要用特定的技术去处理。但是大数据并不是对传统数据分析的代替,而是补充,并且依赖于过去人们建立的方法和数据分析技术。大部分公司和机构仍然要以分析结构化数据为主,非结构化数据为辅。我们使用高性能分析的“三剑客”,确实可以解决大数据数据量大的问题。目前的文本分析技术也可以在一定程度上解决文本分析的问题,但是对于声频和视频的分析还处于研究阶段。

  (作者为赛仕软件研究开发(北京)有限公司总经理)

   刘政|文

……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: