网络入侵检测与垃圾邮件过滤技术探究
1. 网络入侵检测系统的数据挖掘方法
数据挖掘在网络入侵检测系统中起着关键作用,主要有以下几种方法:
1.1 关联规则生成
从频繁项集中生成关联规则,使用用户给定的最小置信度(min_con),从每个最大频繁项集中发现置信度不低于 min_con 的关联规则。
1.2 数据分类分析方法
分类分析是数据挖掘中最常用的方法,旨在为数据找到类别概念描述,通常用规则或决策树表示。类别内涵描述包括特征描述和区别描述,前者描述类别对象的共同特征,后者描述类别间的区别。系统中分类分析的任务是分析安全事件数据库中的安全事件,准确描述所有事件的类别并推导事件分类规则。常见分类算法有 CART、ID3 和 C45。
数据分类的步骤如下:
1. 获取训练数据集,数据集中的数据记录与目标数据库中的数据记录具有相同的数据项。
2. 在训练数据集中,每个数据记录都有已知的类型标识用于关联。
3. 分析训练数据集,提取其数据记录的特征属性,为每种类型推导准确的描述模型。
4. 使用推导的类型描述模型对目标数据库中的数据记录进行分类,或推导优化的分类模型(分类规则)。
1.3 聚类分析方法
数据聚类是将物理或抽象对象分类为若干组,组内对象相似度高,组间对象相似度低。聚类分析的输入集是一组无分类标签的记录,其任务是合理划分记录集,并以隐式或显式方法描述不同等级。聚类分析可分析一组未分类的安全事件,根据分类分析的预定分类规则,将大量分散的安全事件归类为描述入侵行为的安全事件集。常见聚类算法有 CLARA、PAM 和 BIRCH。