数据挖掘在IDS中的应用
- 来源:环球市场信息导报 smarty:if $article.tag?>
- 关键字:数据,IDS,网络入侵,入侵检测 smarty:/if?>
- 发布时间:2014-02-09 12:54
入侵检测系统是一种检测网络入侵行为的工具,然而现在的入侵检测系统内部的知识库中的入侵模式正常模式和异常模式往往不能很好地反应入侵行为的特征,所以有时候经常出现漏报或误报的情况,另外系统提取的用户行为特征有时候也不能正确地反映用户的实际行为特征。针对这一情况详细讨论了数据挖掘技术在入侵检测系统中的应用,提出了采用数据挖掘技术的入侵检测系统的结构模型。
目前,随着互联网的迅猛发展,构成网络和信息安全的主要威胁攻击方式也越来越多,例如:数据和人为的攻击,以及物理攻击等。尽管针对这些攻击的方式有提出一些防卫性的技术,例如:防火墙技术和安全路由器技术等。但是无法从根本上对入侵进行完全的阻止。为了实现网络中安全风险警告的及时响应,本文通过简要介绍数据挖掘技术和网络入侵检测,对数据挖掘技术的入侵检测系统模型进行详细分析,并阐述了数据挖掘技术在网络入侵检测中的应用。
网络入侵的常规模式和方法
针对当前网络安全态势分析与预测存在的上述问题,将数据挖掘方法引入到网络安全态势分析与预测中,以全面,客观反映网络安全态势趋势。鉴于大规模网络安全事件(如DoS、DDoS、蠕虫僵尸网络)的爆发会在网络流量上有所反映,本文的态势分析与预测的数据来源为网络流量,这与当前基于日志审计数据、网络拓扑数据的评估与预测方法相比,具有较高的实时性。本文主要研究网络安全态势评估与预测方法。在网络安全态势评估方面,本文通过对网络流量的频繁模式挖掘,形成基于关联规则的分类规则,依靠分类规则实现对网络正常流量与异常流量的分类,通过对正常流量与异常流量的融合,形成对网络安全态势的评估值。
基于关联分析的入侵检测。通过挖掘事务集中满足给定支持度和信任度的项集,产生关联规则,找出隐藏在数据间的相互关系。对于网络连接,关联规则描述每个连接记录中的特征属性之间的关系,即一个事件中的属性之间的关系。每条记录包括:开始时间,连接时间长度,源II)地址,目的IP地址,源端口,目的端口,传送字节数,TCP/IP连接状态标志等,挖掘的任务是用关联规则来描述系统的模式。同样,对于主机的审计数据,也可使用关联挖掘算法。
基于序列分析的入侵检测。序列分析与关联分析相似,但它侧重于分析数据间的前后次序(因果)关系。序列挖掘的主要步骤包括:排序、大数据项生成、转换、发掘序列模式等。序列模式挖掘在异常检测中的应用,主要是通过对用户命令序列分析,建立用户行为概貌,任何对特定用户行为模式的偏离,都被视为用户行为异常。通过在大量的数据中进行序列分析,可以发现审计记录之间的相关性,提取入侵行为之间的序列模式,也就是满足指定的最小支持度要求的频繁大序列,即该序列模式不被任何其它序列所包含。
基于数据分类的入侵检测。在入侵检测中,收集用户或程序足够正常的和异常的审计数据,然后应用一个分类算法训练分类器,将一个数据项映射到给定的某一个类别中,从而可以标识或预测属于正常类型或异常类型。Ripper是由WCohen提出来的一种用于入侵检测的分类规则生成算法,对于对包含大量噪声数据的数据集具有很好的性能,而且其规则优化模块可以循环调用,从而进一步提高了分类的准确性。通常,数据分类用于辅助入侵检测中的其它数据挖掘方法,进行预处理或后续处理。
基于聚类分析的入侵检测
聚类分析是指对于物理或抽象对象,根据一定的分类规则进行合理地划分,确定每个对象所在类别的过程。通过聚类分析,使得同一类内的数据具有较高的相似性,而不同类之间的数据差别较大。与分类不同,聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道。利用聚类算法检测入侵不需要训练数据,只需要带有各种属性的数据记录。通过计算不同记录的属性差别,把类似的记录聚集在一起,然后利用距离等来判断哪些足异常记录(攻击数据)。高能等人提出了一种基于数据挖掘的拒绝服务攻击检测技术,先利用关联算法从原始网络数据中提取流量特征,然后利用K.means聚类算法自适应地产生检测模型,依靠和两种算法实现实时地、自动地、有效地检测DoS攻击口。
基于证据理论的异常检测。一种网络异常检测方法。该方法能够融合多个特征对网络流量进行综合评判,有效地降低了误报率和漏报率,并引入自适应机制,以保证在实时动态变化的网络中的检测准确度。
数据挖掘的数据分析过程可以概括为3个步骤
数据准备在这个阶段将从操作环境中提取并集成数据解决语义二义问题;消除脏数据等然后对数据进行选择和预分析在IDS中将用户的历史行为数据和当前操作数据进行集成并删除一些无用的数据和预处理以被用于数据挖掘;挖掘在这个阶段里综合利用前面提到的4数据挖掘方法分析经过预处理的数据从中提取有关特征和规则;表达数据挖掘将获取的特征和规则以便于理解和观察的方式反映给系统在入侵检测系统中通过数据挖掘发现了有关的特征和规则后再根据这些特征和规则将用户的异常模式和正常模式定义出来然后存储在知识库中另外系统还对当前的用户行为数据进行挖掘后找出特征和规则然后以一定的方式表达出来系统将它与知识库中的模式进行匹配检测;评价可以对数据挖掘后所提取的网络安全异常模式或正常模式进行评价如果能够有效地检测出入侵行为就说明它是成功的否则就可以重复执行上述过程直至得出满意的结果为止
数据样本的获取和特征研究的挖掘方法
数据采集:收集用户历史行为数据进行特征提取,用于构造入侵行为模式,知识库收集系统中的各种审计数据或网络数据用于被检测;数据集成:将采集到的数据进行集成与预处理,以便为下一步的数据挖掘准备数据;数据挖掘:采用数据挖掘技术从系统有关数据中提取有关行为特征和规则,从而用于建立网络安全异常模式或正常模式;知识库:知识库中存有系统需要的异常模式或正常模式,入侵检测系统将用户的行为特征与其进行比较判断,从而可以判断出用户的行为是否是入侵行为;特征提取:采用类似于数据挖掘的技术从当前用户的行为数据中提取当前用户行为特征;入侵检测:系统根据一定的算法从知识库中提取出相关规则数据对当前用户行为特征进行入侵检测,根据检测的结果作出相应的行动,如果属于入侵行为,则系统作出报警并采取一定措施防止入侵留下入侵证据,如果属于正常行为则系统继续对用户行为进行监测。
本文根据数据挖掘和入侵检测系统的特征将两者结合在一起提出了应用数据挖掘技术的入侵检测系统结构模型,根据这一结构模型设计的入侵检测系统在提取入侵模式和用户行为特征方面的准确性比不用数据挖掘技术的IDS有了一定的提高,从而提高了IDS检测入侵行为的能力。
陈立