目前,大数据计算主要有批量计算和流式计算两种形态,业界关于大数据批量计算系统的研究和讨论相对充分,而流式计算还处在积极探索的过程中。大数据流式计算目前主要用于对动态产生的数据进行实时计算并及时反馈结果,但往往不要求结果绝对精确的应用场景,在数据的有效时间内获取其价值,是大数据流式计算系统的首要设计目标。因此,流式计算通常是当数据到来后立即对其进行计算,而不再采取缓存等待后续全部数据到来后的方式再进行计算。
金融类流式计算
大数据流式计算会根据数据产生的规模与方式的不同分别应用于金融、互联网以及物联网中。众所周知,在金融银行领域的日常运营中,通常会产生大量数据,这些数据的时效性往往较短,因此,金融银行领域是大数据流式计算最典型的应用场景之一,也是大数据流式计算最早的应用领域。在金融银行系统内部,每时每刻都有大量的、往往是结构化的数据在各个系统间流动,并需要实时计算;同时,金融银行系统与其他系统也有频繁的数据沟通,这些数据不仅有结构化数据,也有半结构化和非结构化数据。通过对这些大数据的流式计算,发现隐含于其中的内在特征,可以帮助金融银行系统进行实时决策。
在金融银行的实时监控场景中,大数据流式计算往往体现出自身的优势。例如:在风险管理方面,包括信用卡诈骗、保险诈骗、证券交易诈骗、程序交易等,需要实时跟踪发现;营销管理方面,根据客户信用卡消费记录,掌握客户的消费习惯和偏好,预测客户未来的消费需求,并为其推荐个性化的金融产品和服务。
互联网类流式计算
随着互联网技术的不断发展,用户可以实时提供和分享各类数据。据统计,目前互联网中75%的数据来源于个人,主要以图片、音频、视频数据形式存在,迫切需要进行实时分析和计算的工作。
在互联网领域中,大数据流式计算的典型应用场景主要包括以下方面:搜索引擎提供商们往往会在反馈给客户的搜索页面中加入点击付费的广告信息,插入什么广告、在什么位置插入这些广告才能得到最佳效果,往往需要根据客户的查询偏好、浏览历史、地理位置等综合语义进行决定,而这种计算对于搜索服务器而言往往是大量的。一方面,每时每刻都会有大量客户进行搜索请求;另一方面,数据计算的时效性极低,需要保证极短的响应时间。同理,我们构建社交网站,一样需要实时分析用户的状态信息,及时提供最新的用户分享信息到相关的群体,准确地推荐朋友、推荐主题、提升用户体验,并能及时发现和屏蔽各种欺骗行为,至此大数据流式计算的方法就会帮助我们达成这种目标定位。
物联网类流式计算
相对于金融和互联网领域,在物联网的应用环境中,各个传感器会不定时产生大量数据,这些数据通常包含时间、位置、环境和行为等内容,具有明显的颗粒性。由于传感器的多元化、差异化以及环境的多样化,这些数据呈现出鲜明的异构性、多样性、非结构化、有噪声、高增长率等特征,所产生的数据量之密集、实时性之强、价值密度之低是前所未有的,更需要进行实时和高效的计算。
在物联网领域中,大数据流式计算的典型应用场景主要有智能交通和环境监测。通过传感器实时感知车辆、道路的状态,并分析和预测一定范围、一段时间内的道路流量情况,以便有效地进行分流、调度和指挥;环境监控则通过传感器和移动终端,对一个地区的环境综合指标进行实时监控、远程查看、智能联动、远程控制,系统地解决综合环境问题。这些对计算系统的实时性、吞吐量、可靠性等方面都提出了很高要求。
从数据的产生方式看,金融领域的数据往往在系统中被动产生,互联网领域的数据往往是人为主动产生,物联网领域的数据往往是由传感器等设备自动产生。从数据的规模看,金融领域的数据与互联网、物联网领域的数据相比较少,物联网领域的数据规模最大。从技术成熟度看,金融银行领域的流式大数据应用最为成熟,从早期的复杂事件处理初始就呈现了大数据流式计算的思想,互联网领域的发展将大数据流式计算真正推向历史舞台,物联网领域的发展为大数据流式计算提供了重要的历史机遇。
清华大学 孙大为
……
关注读览天下微信,
100万篇深度好文,
等你来看……