科技论文发表基于Web数据挖掘技术的研究论文(2521字)

　　4.1.2 挖掘网页多媒体

　　在进行网页多媒体挖掘主要关注的是特征提取，这点网页内容挖掘不一样。在网页多媒体挖掘中提取的多媒体特征主要关注视频或者图片的颜色特征、键值、形式以及它们的URL，最后根据这些特征进行数据挖掘。

　　4.2挖掘网页结构

　　挖掘网站空间中的知识，不仅关注包含在各个网页内容中的信息数据，同时也关注网站与网站之间的网页结构和超级链接结构，这也是非常重要的。进行网页结构挖掘主要分析网页结构之间的特征，利用聚类和分类来分析页面结构特征，找到特征模式。

　　4.3 网页使用挖掘

　　网页使用挖掘也是挖掘网页记录，实际就是挖掘用户在网页上留下的相关的记录信息，网页使用挖掘就是分析用户留言记录的相关信息，通过这些信息时报未来需要发展的用户；网页使用挖掘通常使用扩展有向树模型分析用户的各种浏览行为习惯，挖掘出用户的日志信息，以及用户关心、关注的兴趣领域，把这些信息存放在知识库中，未下一步的分析工作提供数据，对网页使用日志挖掘可分为三个步骤：日志预分析、分析方法处理、模式分析阶段。在网页使用分析中，关注网页服务器记录的相关信息，这些信息主要包括用户访问的时间、URL、IP、使用方法、代理、返回结构、传输数据等相关信息虽然信息比较多，但是还存在无用的数据，需要进行提纯处理。一旦数据处理后，就能采用关联分析、如路径分析等模式发现技术来分析日志，获取有用的信息。

　　5 结束语

　　本文介绍了网页数据挖掘的相关概念、挖掘过程、分类方法以及相关技术。在Internet发展的今天，网页数据挖掘的研究方面更加宽，人们不断关注如何对这些网页数据的处理。网页数据挖掘在各个方面，特别在结合语言问题、查询半结构化、数据库方面会得到不断发展。

首页上一页 1 2

猜你喜欢