二、国内外研究现状述评
三、本文的主要内容与研究思路
第一章 大数据环境下的数据库介绍
第一节 大数据对数据库的要求
第二节 关系数据库和非结构数据库比较
第三节 大数据下常用非结构数据库介绍
小结
第二章 大数据下数据仓库关键问题研究
第一节 非结构数据模型和关系数据模型的转换
第二节 基于多源非结构数据库的数据抽取
第三节 数据类型转换
第四节 数据仓库前端展示
第三章 大数据下数据仓库实现方案
第一节 大数据环境介绍
第二节 实现方案
第二节 Hive介绍
第三节 Pentaho介绍
第四章 基于电子商务的大数据下数据仓库实现
第一节 需求分析
第二节 模型设计
第三节 概要设计
第四节 基于Hive的数据入库操作实现
第五节 基于Pentaho的数据仓库前端展示实现
结论
学位论文题目:聚类算法研究及其在IDS中的应用
一、论文的研究内容
论文的研究内容包括两个方面:一是研究新的高效的聚类算法;一是把已有的聚类算法或论文提出的新算法和入侵检测技术相结合,从而提出一个好的入侵检测模型。具体的研究内容包括以下几个点:
第一、针对聚类算法的研究问题:
1、如何提高算法的可扩展性
许多聚类算法在小于200个数据对象的小数据集上是高效率的,但是无法处理一个大规模数据库里的海量对象。现有的聚类算法只有极少数适合处理大数据集,而且只能处理数值型数据对象,无法分析具有类属性的数据对象。
2、如何处理离群点
在实际应用中,估计数据集中的离群点可能是非常困难的,很多算法通常丢弃增长缓慢的簇,这样的簇趋向于代表离群点。然而在某些应用中,用户可能对相对较小的簇比较感兴趣,比如入侵检测中,这些小的簇可能代表异常行为,那么我们需要考虑在对算法影响更小的前提下,如何更好的处理这些离群点。
3、研究适合具有类属性数据的聚类算法的有效性
对聚类分析而言,有效性问题通常可以转换为最佳类别数K的决策。而目前有关聚类算法的有效性分析,大都集中在对数值数据的聚类方式分析上。对于具有类属性的数据聚类,还没有行之有效的分析方法。
第二、针对聚类算法在IDS应用中的研究问题:
1、如何结合聚类技术和入侵检测技术取得更好的效果
很多的聚类算法都已经和IDS应用环境结合起来了,很多研究者对前人提出的算法作出改进后,应用到IDS系统中去,或者提出一个全新的算法来适应IDS的要求。随着聚类技术的不断发展,聚类技术在入侵检测中的应用将是一个很有前景的工作。我们需要把更好的聚类技术成果应用到入侵检测中。
2、利用聚类技术处理入侵检测中的频繁误警
虽然入侵检测是重要的安全措施,然而它常常触发大量的误警,使得安全管理员不堪重负,事实上,大量的误警是重复发生并且频繁发生的,可以利用聚类技术来寻找导致IDS产生大量误警的本质原因。
二、学位论文研究依据
学位论文的选题依据和研究意义,以及国内外研究现状和发展趋势
聚类分析研究已经有很长的历史,其重要性及其与其他研究方向的交叉特性已经得到了研究者的充分肯定。对聚类算法的研究必将推动相关学科向前发展。另外,聚类技术已经活跃在广泛的应用领域。作为与信息安全专业的交叉学科,近年来,聚类算法在入侵检测方面也得到大量的应用。然而,聚类算法虽取得了长足的发展,但仍有一些未解决的问题。同时,聚类算法在某些应用领域还没有充分的发挥作用,聚类技术和入侵检测技术结合得还不够完善。在这种背景下,我们认为,论文的选题是非常有意义的。
本论文研究的内容主要包括两个方面:聚类算法的研究以及聚类算法在入侵检测中的应用。下面从两个方面阐述国内外这两个方面的发展现状和趋势:
前人已经提出很多聚类算法,然而没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构,根据数据在聚类中的积聚规则以及应用这些规则的方法,可以将聚类算法分为以下几种: