浅析云计算中的数据挖掘应用
- 来源:时代财富 smarty:if $article.tag?>
- 关键字:云计算,数据挖掘应用 smarty:/if?>
- 发布时间:2014-08-31 08:09
摘要:新的共享方法,新的基础与构架,完全不相同的服务方式与服务标准,这就是云计算。围绕着整个互联网,为其提供便捷、安全、快速的网络计算服和务数据存储。相对于单一的计算机来说,用数量庞大的计算机群来完成计算和网格的动态处理能力相比,计算的速率更快,处理的方法更多,速度也更快。将数据挖掘与云计算相结合,这样就可以为大量的Web数据挖掘提供非常多的解决方案,方案一多那么可供大家挑选的空间也就更多了。
关键词:云计算;数据挖掘:数据挖掘应用
0 引言
随着网络和软件还有计算的三相技术的统一并重发展,这就必然是为云计算的出现打好了基础。并且就现在来说,在很多领域,例如科研领域和商业领域上,云计算得到了非常多的关注和实际上的运用,云计算的未来将会把整个社会都引领。本文基于云计算的挖掘数据的一些方法与计算以及云计算这个系统本身进行了深入的探索研究。
1 云计算定义
直到现在为止,云计算的用户们对云计算做出了一个大致的分类,而将所有的定义都重新排列一下共有以下几大种类。
(1)文献在概括了多个云计算的定义后,将云计算定义如下:一些虚拟的资源的负载量总是不一样的,而云计算就总是可以根据这些资源不同的量来进行新的配置。云计算其实就是一个拥有海量可用的虚拟资源的超大资源盘。
(2)云计算的服务一般都是透明化的,因为云计算的用户只是想要获得自己想要的资源与服务,对于云计算的运行机制却是不用去了解的。但是如果本身就拥有庞大数量的计算机群还在不停的增加的话,那系统出错乃至是崩溃都是有几率的。因为硬件设施并不可靠,所以就要采用比较可靠的软件来进行弥补,这就要使用冗余和分布式存储的方式了。云计算系统还有一个叫做自主进行自我检测的系统模式,这便是云计算的系统其中的一个特点,不仅可以自我检测出无效的节点并且自动排除,而且还不会影响云计算系统的运行。有着高质量高速度的计算能力还有海量的储存能力来提高云计算系统为用户服务的效率和质量。
云计算的系统技术的特点:
(1)对用户的透明制度,用户其实并不需要了解云计算的具体机制,因为用户可以直接得到想要的服务,所以说服务即是对用户透明。
(2)云计算系统负责搜索和提供海量的对数据处理的服务给用户,但是因为计算机群体的本身数量就已经相当庞大了,而现在数量还在一直增加,那系统出错甚至是崩溃的几率都会因此而变高。所以这里有采用可靠软件的方式保证数据的可靠性用来弥补在没有可靠性硬件支持的方式下的储存方式。
(3)可用性较高。可以排除失效节点,这是云计算系统的一大特点,而且不会影响整个系统的运行。通过高性能的计算能力和集成海量存储来提高云计算系统为人们服务的质量。
(4)云计算的编写程序其实并不复杂,其实有很多用户都是有在经过一系列并不怎么复杂的学习之后就可以自己进行编程,并且在自己的“云”系统上执行,这使用户的需求能得到更加人性化的满足。
(5)服务性能多种多样,云计算系统有着很多种类的服务功能,而且所需的花费非常的廉价。
(6)云计算系统比较经济实惠,高级性能的计算机的价格想必不用多说,完全不是一般用户可以承受的,但组建一个由庞大数量的计算机群体所需要的费用与顶级的计算机比起来那可是非常廉价的,而且还能获得甚至是超越顶级计算机的性能和效率。
2 云计算的技术
以数据为中心的一种超级计算方式这就是云计算。本章节主要介绍了云计算几项主要的技术如下所示。
2.1 虚拟化技术
虚拟化的服务也就是用户通过计算机获得的需求与服务,而因为用户通过虚拟化获得需求与服务就相当于变相的开启了云计算的大门让整个IT界都慢慢的进入到了云计算的时代。庞大数量的计算群体所拥有的资源集结在一起组建起了IT资源池,为了将这些虚拟的资源提供给用户使用而是用跨系统的资源动态调度方法。这就实现了IT的资源应用还有数据通过为用户服务的方式传达给用户,用高速的,效率的,用质量的方式来完成用户的需求。
很多企业通过虚拟化技术为自身带了相当可观的直接利益,但即使在艰难环境下还能继续找到适应自己的虚拟化技术才是现在人们最重视的。也就是说在云计算环境下,我们所要考虑的是将所有的技术整合成一个整体来考虑组成就不会有资源的浪费,让效率与利益达到最大化。
2.2 数据管理技术
能够快速分析与处理并且以最快速度给用户提供所需的服务,云计算系统现在已经可以办到了。而现在有了能快速处理分析能力的云计算系统就需要一个能够高效率的管理这些储存数据的技术[2]。
还有一个问题是比较麻烦,但也是云计算系统一定要去解决的,那就是怎么样才能在这海量的数据库之中找到用户所需要的特定的数据。而BigTable一种非常好用也很出名的管理数据的一种技术,而对于BigTable是这样说明的:“Big Table是一种能够管理结构化数据,并且可以iif扩展成大规模数据,使用分布式存储方式的系统,就打比方说,在以万为单位的服务器上可以达成PB(Petabytes)规模的数据。”
2.3 庞大数量的分布式存储
由Hadoop团队所开发出来的“HDFS”开源系统还有谷歌所研发“GFS”的非开源系统。在云计算系统也是非常有名并且也是非常好用的系统。
云计算系统存储的异常庞大数量的数据用分布式存储方法来存储的话,则有了经济性、高可用性和高可靠性,采用冗余存储的方式来保证数据存储的比较高的可靠度,因为硬件设施方面无法跟上,那么就只能从好的可靠的软件方面下手。
对于数据的存储技术必须要同时具有着相当高的传输率和吞吐率的这一特点,这样云计算才能为大量用户并行地提供服务同时满足大量用户的需求。
3 Web的数据挖掘
从云计算系统所储存的海量数据中和网络上的大量文档的发现与提取信息这就是Web的数据挖掘,总是不会有相同的需要挖掘的信息和对象,将Web数据挖掘分为3类。
通过人为的行为的在Web上进行内容的挖掘,用户自身从挖掘到的文档还有他的描述内容中获得了自身想要的信息;通过挖掘相应站点的相关数据以及日志文件来发现该站点上的顾客和浏览者的行为模式;结构挖掘就是人为在文档的内部结构中获取有用知识的过程。
4 结语
很多事情都说明了,现代社会已经进入的“云时代”,云计算给现代IT界带来许多方便快捷的处理方法。所以对云计算的关键技术和定义进行了介绍.如数数据管理和存储技术。
参考文献:
[1]陈全,邓倩妮.云计算及其关键技术[J]计算机应用2009(9).
[2]张为民.唐剑锋.罗治国.钱岭云计算深刻改变未来[M].北京:科学出版社,2010.
[3]陶克,数据流频繁项集挖掘技术研究2009
孙瑞丰