您的当前位置:首页Web数据挖掘技术及应用研究

Web数据挖掘技术及应用研究

2021-03-08 来源:小侦探旅游网
1丁技术20O7NO.14义〕!ENCE&T〔C卜小汇汇()〕YINF以刁MAT10NWeb数据挖掘技术及应用研究摘掘的定义,Web数据挖掘的分类以及各自相关技术,并对Web数据挖掘的应用前景进行了探讨。关键词:Web数据挖掘Web内容挖掘Web结构挖掘Web使用挖掘中图分类号:TP3文献标识码:A(,武汉理工大学:2.南阳师范学院计算机与信息技术学院)要:Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的结果。本文介绍了Web数据挖文章编号:16,2一3791(2007)05(b)一冈,5一01李争艳,.,1引言随着Internet的飞速发展,Web上的数据资源空前丰富,在这些大量、异质的Web信息资源中,除了丰富的各种文本、Itnemet上文本数据挖掘过程中的必不可少的一个环节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分类、聚类、关联分析等来提取而向特定应用在网站设计方面的应用,主要是通过对网站内容的挖掘,特别是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织。图形图像、声音等煤体信息外,还包含了大量的常被人们所忽视的链接结构信息以及存在于服务器上的用户使用记录信息,这些庞大的数据包含了非常丰富的有用信息,构成了数据挖掘的巨大数据来源,蕴藏着具有惊人潜在价值的知识.数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。相对于Web的数据而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化的数据,而Web上的数据最大特点就是半结构化。显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。Zw。b数据挖掘技术根据Web上的数据类型,把Web数据挖掘分为三类:Web内容挖掘、Web结构挖掘和2.IWeWebb内容挖掘使用挖掘。Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的,有价慎的知识或模式的过程。Web内容挖掘的重点是页面的分类和聚类。Web页面的分类是指根据页面的不同特征,将其划分为事先建立起来的不同的类。Web页面的聚类是指在没有给定主题类别的情况下,将Web页面集合聚成若干个簇,并月.同一簇的页面内容相似性尽可能大,而簇间相似度尽可能小。Web上的信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,可以简单地分为Web文本信息和Web多媒体信息。针对所处理的Web信息对象,Web内容挖掘分为Web文本挖掘和Web多媒体挖掘。2.1.IWeb文本挖掘对于文本文档的挖掘称为文本挖掘。Web文本挖掘可以对Web上大量的文档集合的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势分析等。在Internet上的文本数据一般是一组html格式的文档集,要将这些文档转化成一种类似关系数据库中记录的规整且能反映文档内容特征的表示,一般采用文档特征向量。但目前所采用的文档表示法中,都存在一个弊端就是文档特征向量具有非常大的维,使得特征r集的选取成为的知识模式。最后对挖掘结果进行评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析改进后进行新一轮的挖掘工作。2.1.ZWeb多媒体挖掘Web多媒体挖掘与Web文本挖掘的不同点在于需要提取的特征不同。Web多煤体挖掘需要提取的特征一般包括图像或视频的文件名URL、类型、键值表、颜色向量等。然后可以对这些特征进行挖掘工作。如关联分析发现类似“如果图像是‘大’而且与关键词‘草原’有关,那么它是绿色的概率是0.扩的关联规则。当然也2.Zweb可以对多媒体进行分类、聚类等操作。结构挖掘整个Web空间中,有用知识不仅包含在Web页面内容中,也包含在Web页面间超链接结构与Web页面结构之中。挖掘Web结构的目的是发现页面的结构和Web间的结构。在此基础上对页面进行分类和聚类,从而找到权威页面,这种方法可以用来改进搜索引擎。2.3web使用挖掘Web使用挖掘又叫Web日志挖掘,是指通过挖掘Web日志记录来发现用户访问Web页面的模式。可以通过分析和研究Web日志记录中的规律,来识别电子商务的潜在客户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问Web的记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面加快用户获取页面的速度。Web日志挖掘过程一般分为3个阶段:预处理阶段、挖掘算法实施阶段、模式分析阶段。Web服务器日志记录了用户访问本站点的信息。其中包括TP地址、请求时间、方法、被请求文件的URL、返回码、传输字节数、引用页的URL和代理等信息。这些信息中有的对Web挖掘并没有作用,因此要进行数据预处理。预处理包括数据净化、用户识别、事务识别等过程。通过对Web日志预处理后,就可以根据具体的分析需求选择访问模式发现的技术,如路径分析,关联分析、时序模式识别以及分类和聚类技术等。模式挖掘出来以后还要进行分析,使之得到很好的利用。3Web挖掘的应用3.1在网站设计中的应用科技资讯SCIENCE&TECHNOLOGYINFORMAT10N握用户感兴趣的信息,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。32在搜索引攀中的应用Web数据挖掘在搜索引擎中的应用,主要是通过对网页内容的挖掘实现对网页的聚类和分类,实现对网络信息的分类浏览与检索,减少在搜索引擎上为组织Web文档所消耗的资源,通过对用户所使用的提问式的历史记录的分析,可以有效地进行提问扩展,提高用户的检索效率,运用Web内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。3.3在电子商务中的应用Web挖掘在电子商务中的应用主要表现在客户分类、客户聚类、客户获取和客户驻留四个方面。应用Web数据挖掘技术能够从Web服务器记录的日志数据中发现隐藏的模式信息,了解客户的访问模式和行为模式,从而做出预测性分析.对客户进行分类分析和聚类分析,将客户分组,并分析组中客户的共同特征,从而更好地了解客户,为客户提供更有针对性的服务。4结语Web数据挖掘是WWW和数据挖掘结合而产生的一种新技术。随着Interent的进一步发展,Web挖掘在信息的谁确检索、个性化的信息服务、开展有针对性的电子商务、构建智能化Web站点等方面将起到极其重要的作用。Web数据挖掘技术也将成为重要的研究课题和方向。参考文献【]1曼丽春,朱宏,杨全胜.Web数据挖掘研究与探讨【J].现在电子技术,2006(8):3一6,]21何鳃,朱方洲.基于Web的数据挖掘方法的研究及实现tJ].合肥学院学报,2005(6):24一27.131王颖楠,滕飞。Web挖掘技[JJ。吉林工学院学报2002(3):11一15.【4]蒋良孝,蔡之华.Web挖掘及其应用研究IJI。现代计算机2003(3):24一27.通过对用户访问日志记录信息的挖掘,把

因篇幅问题不能全部显示,请点此查看更多更全内容