第一、针对聚类算法的研究问题:
1、如何提高算法的可扩展性
许多聚类算法在小于200个数据对象的小数据集上是高效率的,但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集,而且只能处理数值型数据对象,无法分析具有类属性的数据对象。
2、如何处理离群点
在实际应用中,估计数据集中的离群点可能是非常困难的,很多算法通常丢弃增长缓慢的簇,这样的簇趋向于代表离群点。然而在某些应用中,用户可能对相对较小的簇比较感兴趣,比如入侵检测中,这些小的簇可能代表异常行为,那么我们需要考虑在对算法影响更小的前提下,如何更好的处理这些离群点。
3、研究适合具有类属性数据的聚类算法的有效性
对聚类分析而言,有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析,大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类,还没有行之有效的分析方法。
第二、针对聚类算法在IDS应用中的研究问题:
1、如何结合聚类技术和入侵检测技术取得更好的效果
很多的聚类算法都已经和IDS应用环境结合起来了,很多研究者对前人提出的算法作出改进后,应用到IDS系统中去,或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展,聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。
2、利用聚类技术处理入侵检测中的频繁误警
虽然入侵检测是重要的安全措施,然而它常常触发大量的误警,使得安全管理员不堪重负,事实上,大量的误警是重复发生并且频繁发生的,可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。
二、学位论文研究依据
学位论文的选题依据和研究意义,以及国内外研究现状和发展趋势
聚类分析研究已经有很长的历史,其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外,聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科,近年来,聚类算法在入侵检测方面也得到大量的应用。然而,聚类算法虽取得了长足的发展,但仍有一些未解决的问题。同时,聚类算法在某些应用领域还没有充分的发挥作用,聚类技术和入侵检测技术结合得还不够完善。在这种背景下,我们认为,论文的选题是非常有意义的。
本论文研究的内容主要包括两个方面:聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势:
前人已经提出很多聚类算法,然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,可以将聚类算法分为以下几种:
1.划分聚类算法
划分聚类算法需要预先指定聚类数目或聚类中心,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,得到最终的聚类结果,划分聚类算法典型代表是k-means算法[1]和k-modoids算法。这些算法处理过程简单,运行效率好,但是存在对聚类数目的依赖性和退化性。迄今为止,许多聚类任务都选择这两个经典算法,针对k-means及k-modoids的固有弱点,也出现了的不少改进版本。
2.层次聚类算法
又称树聚类算法,它使用数据的联接规则,透过一种层次的架构方式,反复将数据进行分裂和聚合,以形成一个层次序列的聚类问题解。由于层次聚类算法的计算复杂性比较高,所以适合于小型数据集的聚类。20xx年,Gelbard等人有提出一种新的层次聚合算法,称为正二进制方法。该方法把待分类数据以正的二进制形式存储在二维矩阵中,他们认为,将原始数据转换成正二进制会改善聚类结果的正确率和聚类的鲁棒性,对于层次聚类算法尤其如此。Kumar等人[9]面向连续数据提出一种新的基于不可分辨粗聚合的层次聚类算法,既考虑了项的出现次序又考虑了集合内容,该算法能有效挖掘连续数据,并刻画类簇的主要特性。
3.基于密度-网格的聚类算法