基于改进k均值聚类算法的网络入侵检测-智能算法-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

基于改进k均值聚类算法的网络入侵检测

来源：互联网发布日期：2011-12-16 20:06:04 浏览：113437次

导读：1.改进K-均值聚类算法原理 K-means 算法的缺点是容易受到噪声和孤立点的影响，噪声和孤立点的存在会使聚类效果发生很大的变化，影响聚类的效果。还有一个缺点就是初始聚类中心点的选取对聚类结果具有较大的影响。因为在该算法中是随机选取任意个点作为初始聚...

1.改进K-均值聚类算法原理
   K-means 算法的缺点是容易受到噪声和孤立点的影响，噪声和孤立点的存在会使聚类效果发生很大的变化，影响聚类的效果。还有一个缺点就是初始聚类中心点的选取对聚类结果具有较大的影响。因为在该算法中是随机选取任意个点作为初始聚类中心，假如选择的个体对象分布比较集中，将会延缓聚类的进程，影响聚类的效果。再有一个缺点就是从不同的初始聚类中心出发，将会得到不同的聚类结果。因此，如何选择初始聚类中心点就成为影响最后聚类结果的重要因素。另外 K 值的确定也是一个值得研究的问题。
   本案例提供的改进K-均值聚类算法主要从如下几个方面进行了优化：
   (1) 针对不同的数据类型对聚类效果的影响较大，改进K-均值聚类算法可对数据首先进行标准化处理以提高聚类精度。
   (2) 针对经典K–means算法聚类中心个数难以确定的缺点，改进K-均值聚类算法提出了一种求聚类中心个数的算法。
   (3) 针对经典K–means算法易受噪声和孤立点影响这一缺点对算法做了进一步改进，以减少噪声和孤立点对聚类效果的影响。
   (4) 针对经典K–means算法聚类效果对初始质心严重依赖和对数据输入顺序敏感（即从不同的初始聚类中心出发会得到不同的聚类结果且准确率也不一样）等缺点，改进K-均值聚类算法提出了寻找较为准确的K个聚类中心的方法，从而可以得到更好的划分效果。

2.案例描述
   入侵检测技术是近年来顺应网络安全需求发展起来的一种新兴技术，并得到快速发展。入侵检测系统(Intrusion Detection System， IDS)可以对系统或网络资源进行实时检测，及时发现闯入系统或网络的入侵者，也可以预防合法用户对资源的误操作，是保证网络安全的关键技术和重要手段，它也是一种主动保护自己免受攻击的网络安全技术。入侵检测系统分为数据采集、数据分析和响应三个部分。为了寻找入侵行为和痕迹，数据采集从网络系统的多个点进行，采集内容包括系统日志、网络数据包、重要文件以及用户活动的状态与行为等。数据分析则通过模式匹配、异常检测和完整性检测三种技术手段对采集的数据进行分析。入侵检测系统一旦发现入侵行为，立即会进入响应过程，包括日志、告警和安全控制等。随着网络范围的不断扩大，网络技术的不断进步，网络攻击也日益增多，而且危害程度也越来越大。入侵检测需要采集处理的数据很多，利用传统的入侵检测方法已经不能适应。传统的模式匹配检测是基于已知的攻击或系统的明显漏洞识别入侵，这种方法的缺点是无法检测未知的攻击。而传统的异常检测技术利用统计学的方法建立常规状态库，对不满足常规条件的行为判断为异常。这种方法缺点是误报率高。并且现存的IDS缺少有效性、适用性和扩展性。需要找到一种提高IDS有效性、适用性和扩展性的方法。
   目前的入侵检测系统主要以模式发现技术为主，其目前的研究热点主要表现在：宽带高速实时的检测技术、大规模分布式的检测技术、数据挖掘技术、更先进的检测算法和入侵响应技术。目前对将数据挖掘技术尤其是将其中的聚类算法应用到入侵检测中的研究还处于起步阶段，如何改进聚类算法使入侵检测的检测率提高并且降低误报率是进一步的研究方向。因此，研究的目的在于设计一个基于聚类算法的入侵检测系统，使其正确率、效率和可用性在一个比较理想的范围内，并在一个特定环境中实现。
   以聚类(Clustering)为代表的无监督异常检测(Unsupervised Anomaly Detection)方法的提出解决了传统方法存在的问题。在入侵检测系统中使用数据挖掘算法是IDS研究中一种新的趋势，这一领域技术的成熟，将会有助于提高主机和网络的安全性。将聚类分析应用于入侵检测领域，是实现IDS智能化的重要手段，也是实现入侵检测的关键。其主要思想是利用聚类分析算法提取相关的用户行为特征，并根据这些特征生成安全事件的分类模型或具有代表性的系统特征模式，应用于安全事件的自动鉴别，以对程序和用户行为作出更精确的描述。
   这里采用了《系统安全与入侵检测》中的实验数据作为原始数据，如样本表所示。表中列出了 20 条网络连接记录的特征数据，显示了用户登陆的一些特征。主要针对三维数组（Count，Srv_serror，Srv_count）对数据进行分析。这个三维数组较好的描述了数据是否具有攻击特征。主要对这三个参数考察来区别攻击、异常、正常行为。
   攻击：在一个时间窗口内，目标主机与当前连接相同的次数大于等于 15；同一主机的连接中出现 SYN 错误的百分比大于等于 88％，且目标端口与当前连接相同次数大于等于 25。
   异常：在一个时间窗口内，目标主机与当前连接相同次数大于等于 6；同一主机连接中出现 SYN 错误的百分比大于 75％，且目标端口与当前连接相同次数大于等于 6。
   正常：如果不满足上述两个条件。
   样本数据如下：

   以下是对相关参数的一些说明：
   Count：在一个时间窗口内目标主机是与当前连接相同的连接次数（以下属性针对相同主机的连接）。
   Serror：出现 SYN 错误的连接百分比。
   Same_srv：目标端口(service)相同的连接所占的百分比
   Diff_srv：目标端口(service)不同的连接所占的百分比
   Srv_count：目标端(service)与当前连接相同的连接次数（以下属性针对相同服务的连接）。
   Srv_serror：出现 SYN 错误的连接百分比。
   Rv_diff_host：目标主机不同的连接所占的百分比。

3.建模过程
   1）方案管理

   2）数据管理

   3）建模过程
     a）导入数据
     选择Count，Srv_serror，Srv_count属性，并导入20 条网络连接记录的特征数据：

     b）参数设置

     c）聚类分析

   聚类分析结果表明：当聚类数设置为3时，系统将 20 条记录分为以下三类：
   > 攻击：3
   > 异常：4，5，6，12，13，19，20
   > 正常：1，2，7，8，9，10，11，14，15，16，17，18
   聚类数为3时的聚类结果：

   当聚类数设置为4时，系统将 20 条记录分为以下四类：

   系统将 20 条记录分为以下四类：
   > 攻击：3
   > 异常：4，6，12，13，20
   > 异常：5，19。此为需重点监视的异常行为
   > 正常：1，2，7，8，9，10，11，14，15，16，17，18
   聚类数为4时的聚类结果：