浅谈Web日志挖掘技术
2023-04-10
来源:小侦探旅游网
计算机光盘软件与应用 工程技术 Computer CD Software and Applicati0ns 2012年第4期 浅谈Web日志挖掘技术 彭 晶 (湖北工业大学, 武汉430068) 摘要:Web挖掘作为近年来数据挖掘的一个新的研究领域,因其实用性强而获得了广泛的研究,web日志挖掘作为 Web挖掘中最重要的一个研究领域,通过对服务器日志进行分析挖掘,得出用户的访问模式,它在网站个性化推荐,智能 化服务上发挥着重要的作用。 关键词:Web日志;数据挖掘;模式分析;网站结构 中图分类号:TP182 文献标识码:A 文章编号:1007—9599(2012)04—0040—02 Web Log Mining Technology Study Peng Jing (Hubei University of Technology,Wuhan 430068,China) Abstract:Web mining a new area of research in recent years,data mining,extensive research because of its practical,Web log mining as Web mining is the most important research areas through analysis of server log mining draw the user S access pattems, site personalization,recommendation,play all important role in hte intelligence service. Keywords:Web log;Data mining;Pattem analysis;Site structure 网络作为我们生活的一部分,在2l世纪之后更是以迅猛的 技术,这样我们就能发现一些潜在的用户访问模式,从而为用户 速度发展,其影响力已经渗透到了我们日常生活的方方面面。特 行为的研究提供实际参考价值和便利。 别是从Web2.0以来。网站已经越来越成为一种流行的互动媒 三、Web日志挖掘的优点 介,据不完全统计,目前万维网上的Web页面数目现已超过lO 在Web数据挖掘下,Web日志挖掘具有独特的现实意义。Web 亿。怎样从这样一个庞大而有用的数据源中找出用户感兴趣的知 日志挖掘的应用及好处主要有:提高系统效率,优化网站结构, 识越来越成为人们的一个研究热点。 个性化服务。 一、数据挖掘简述 (一)Web日志挖掘的最大一个用处也是目前研究最广的一 传统数据挖掘的对象主要是指是数据库中的数据,但随着数 个方面就是个性化服务,通过对每个用户访问模式的分析,寻找 据库系统的发展,目前数据挖掘的数据源主要包括文件系统、 出用户最常访问的界面,从而得到一个用户兴趣序列,根据这个 Web资源等一系列数据的集合。数据挖掘是一个螺旋上升、循环 序列,我们使用模板技术生成一个网页主模板,然后按照不同用 往复的多步骤渐进处理过程。其中,多处理阶段模型是数据挖掘 户的习惯生成符合用户习惯的个性化界面。也就是说每个用户看 领域目前比较有代表性的模型。在传统的定义上,知识发现过程 到的页面是不完全相同的,这个不完全相同表现在界面上的超链 由以下三个阶段组成:数据准备,数据挖掘,结果表达和解释。 接排布不同,页面显示的内容不完全相同,用户经常访问的超链 但是目前的研究者将数据挖掘分成了更加详细的九个阶段,包括 接界面会排在前面,最不常用的在最后,从而方便用户的使用。 数据准备,数据选择,数据预处理,数据缩减,确定数据挖掘的 (二)Web日志挖掘的另一个作用就是生成个性化导航,根 目标,确定数据挖掘,运用选定的数据挖掘算法进行挖掘分析, 据用户的习惯,生成自己的个性化导航。 模式评估,可视化显示九个阶段。 (三)Web日志挖掘虽然是一门新兴的研究领域,但是它仍 二、Web日志挖掘概述 然属于数据挖掘技术,所以它的一个重要作用就是将用户进行分 Web2.0技术推广以来,互联网上的数据更是爆炸式的增 类,针对相似类别的用户进行研究,从而得到感兴趣的知识。 长,这些数据杂乱无章,呈现非结构化的特点,而且随着时间动 (四)页面推荐。通过对用户行为的分析,预测其感兴趣的 态更新。众多研究者希望能够从这些数据中通过一定的分析,找 页面,按照一定的规则进行排序,然后取前Top N个界面作为推 出数据中规律,利用这些规律得到数据中隐藏的、有用途的知 荐显示给用户。 识,一是给用户提供信息检索时的遍历,二是为网站的经营者提 (五)商业智能。在电子商务网站中,利用Web日志挖掘对 供一定的价值参考。在这个目的的基础上,结合数据挖掘技术 注册用户访问行为和特别是购物的关系进行研究,发现用户的购 Web挖掘技术应运而生。近些年来,很多人针对Web文档和用户 买特点,理解并推测用户的购买意图,从而对潜在客户进行识 的活动,联系传统的数据挖掘技术,从网络上发现有价值的模式 别,发现潜在客户群,通过这些决策支持、合理订制网络广告策 和知识,以解决很多现实问题。 略等。 Web数据挖掘主要分为Web内容挖掘,Web结构挖掘,Web日 四、Web日志挖掘的流程 志挖掘,前两种主要是对Web搜索的能力进行改进,使用范围比 Web日志挖掘可以通过挖掘站点服务器上的日志记录来发现 较窄.主要都是用于对搜索引擎的研究上,作为实用性最大的一 潜在有用的用户浏览模式 Web日志挖掘的数据来源非常丰富, 个,Web日志挖掘有着广泛的研究前景,同时它也有丰硕的应用 包括站点服务器日志、浏览器端日志、Cookie信息、注册信 成果。每一个站点服务器上都存储站点运行的日志,这些日志所 息、代理服务器日志、交易数据等一切用户与网站之间可能的交 保存的数据具有稳定和结构完美的特点,我们可以从这些数据中 互记录。Web服务器日志数据记录了用户在网站上的浏览行为和 抽取出每一个用户,再通过对每一个用户的访问序列的研究可以 相关操作。 得出用户的个性化访问模式。传统的采用简单的统计分析方法仅 Web日志挖掘的研究主要有两个方向:第一个是将所有用户 仅是对数据进行一些基本的数理统计,比如用户对某一网页的浏 看成一个整体,分析这个整体在网站上的访问规律,了解用户对 览次数,这只能得到很浅显的一些信息,对于潜在用户的关联兴 网站的哪个部分感兴趣,从而达到对网站结构进行调整的目的。 趣不能有所发现,所以,为了达到这个目的,可以使用数据挖掘 (下转第45页) ・・——40-——— 计算机光盘软件与应用 2012年第4期 Computer CD Software and Applications 工程技术 与修复”窗口,首先选择要检查的硬盘,设定检测范围(柱面范 立分区并隐藏它。60G硬盘在c分区大约有12G左右的坏区,选 围)。点击“开始检测”按钮,软件即开始检测坏磁道。发现坏磁 择包含物理坏磁道的空闲区域,然后点击工具栏“新建分区”按 道时会将坏磁道情况显示在对话框中。 钮,或依次选择“分区一建立新分区”菜单项,也可以在空闲区域 检测过程中遇到坏磁道时,检测速度会变慢。检测完毕,软 上点击鼠标右键,然后在弹出的菜单中选择“建立新分区”菜单 件报告检测到的坏磁道数目。 项。程序会弹出“建立分区”对话框。 检测完成后,可以通过点击“保存报表”按钮,将检测结果 按需要选择分区类型、文件系统类型、输入分区大小(15G) 保存到一个文本文件中。以备查用。 后点击“确定”即可建立分区。 如果要立即尝试修复刚刚检测到的坏磁道,可点击“尝试修 对于某些采用了大物理扇区的硬盘,比如4KB物理扇区的西 复”按钮。软件显示下面的提示: 部数据“高级格式化”硬盘,其分区应该对齐到物理扇区个数的 重要说明:坏磁道修复会影响到坏磁道附近的数据j在做修 整数倍,否则读写效率会下降。此时,应该勾选“对齐到下列扇 复之前,一定要先对磁盘数据进行备份。如果坏磁道区域存有重 区数的整数倍”并选择需要对齐的扇区数目。 要数据,请不要用本功能修复坏磁道,而应该将硬盘送到专业的 如果需要设置新分区的更多参数,可点击“详细参数”按钮, 数据恢复中心恢复数据。坏磁道修复会破坏数据,而不是恢复数 以展开对话框进行详细参数设置 据!另外需要说明的是,并不是所有的坏磁道都能修复,本功能 对于GUID分区表格式,还可以设置新分区的更多属性。设置 可以修复的坏磁道种类有限。 完参数后点击“确定”即可按指定的参数建立分区。 如果没有进行过坏磁道检测,或者运行本软件之前用其它软 新分区建立后并不会立即保存到硬盘,仅在内存中建立。执 件进行过坏磁道检测,为节省时间,也可以在不检测的情况下直 行“保存分区表”命令后才能在“我的电脑”中看到新分区。这 接用本软件修复坏磁道。 样做的目的是为了防止因误操作造成数据破坏。 如果修复成功,软件会在检测结果中报告“已修复”。修复 (三)隐藏分区 完成,软件报告已修复的坏磁道个数。 当分区处于隐藏状态时,操作系统将不为其分配盘符,在“我 (二)建立分区 的电脑”中看不到这样的分区。应用程序也不能对其进行访问。 创建分区之前首先要确定准备创建的分区类型。有三种分区 但隐藏分区内的文件没有丢失,只是通过正常方式无法访问了。 类型,它们是“主分区”、“扩展分区”和“逻辑分区”。主分 要隐藏当前选择的分区,请点击菜单“分区一隐藏当前分区” 区是指直接建立在硬盘上、一般用于安装及启动操作系统的分区。 项,也可以在要隐藏的分区上点击鼠标右键并在弹出菜单中选择 由于分区表的限制,一个硬盘上最多只能建立四个主分区,或三 “隐藏当前分区”项。 个主分区和一个扩展分区;扩展分区是指专门用于包含逻辑分区 如果锁定或卸载成功,程序将删除当前分区的盘符,最后隐 的一种特殊主分区。可以在扩展分区内建立若干个逻辑分区:逻 藏分区。分区隐藏后,将在“我的电脑”中消失。但仍在本软件 辑分区是指建立于扩展分区内部的分区。没有数量限制。 中可见,并可访问分区内的文件。 如果要建立主分区或扩展分区,请首先在硬盘分区结构图上 需要特别注意的是修好的硬盘千万不要再用DOS下的Fdisk 选择要建立分区的空闲区域(以灰色显示)。如果要建立逻辑分区, 等分区工具对其进行重新分区,以免其又改变硬盘的起始扇面, 要先选择扩展分区中的空闲区域(以绿色显示)。然后点击工具栏 空费了我们的心血。 “新建分区”按钮,或依次选择“分区一建立新分区”菜单项,也 参考文献: 可以在空闲区域上点击鼠标右键,然后在弹出的菜单中选择“建 …硬盘分区工具DM图解教程国 立新分区”菜单项。程序会弹出“建立分区”对话框。 f2]USB启动盘制作向导程序说明 通过“坏磁道检测与修复”后,还存在物理坏磁道,就要建 『3]DISKGEN分区表修复图文教程 (上接第4O页) 果,这一步往往会联系可视化技术来完成。 第二个是对单个用户的行为进行研究,每个用户作为一个独立的 在Web日志挖掘的整个过程中,数据预处理是基础和前提, 个体,都具有自己独立的兴趣模式,通过研究这些用户的兴趣模 模式发现是核心。在现有的Web日志挖掘研究中,大多数只是做 式,不仅可以完整网站站点的个性化流程,同样也可以针对不同 到了简单的数据统计,且偏理论性,无法充分满足网站的应用需 的用户投放不同的广告,当用户所看到的是自己感兴趣的广告 求。网站管理者往往需要更强的此类功能的产品才能在确定用户 时,那么广告所带来的盈利效果明显是大大增加的。 群,网站营销上获得实际的作用。所以,对于Web日志挖掘的研 Web日志挖掘的研究依然遵循数据挖掘的思路,Web日志挖 究对于网站管理者和网站开发者都具有重大的意义。 掘一般可以分为3个阶段:数据预处理阶段、模式发现阶段和模 参考文献: 式分析及应用阶段。 [1】李鹏,张永平.Web日志挖掘中的数据预处理研究卟电脑知 (一)数据预处理主要是指对原始数据源进行处理,由于原 识与技术。2008 始数据源只是一些单纯的数据记录,这些数据源往往都是杂乱无 【21黄健青,黄浩.Web日志分析中数据预处理的设计与实现卟 章的,为了达到良好的挖掘效果,需要将服务器站点上的文本格 重庆理工大学学报,2010 式的日志文件进行规范化和归一化的处理,这样才能作为数据挖 [3]张毅.Web日志挖掘中会话识别方法研究Ⅱ].计算机应用与 掘步骤的输入。 软件,2010 (二)模式发现通过相关的技术从经过数据预处理后的日志 [4】徐海兰,崔荣一.基于web日志的用户访问模式挖掘卟计算 数据中发现潜在的规则和模式。目前比较流行的模式发现规则主 机工程与设计,2009 要有:关联规则、Cookie信息、统计分析等。 [5】王越,桂袁义.基于关联分析的数据挖掘在体检CRM中的 (三)模式分析是Web日志挖掘的最后一个步骤,它是指利 应用卟重庆理工大学学报,2010,3 用前面出来的数据集,对照用户的需求,从其中挖掘出用户感兴 趣的知识。也就是挖掘的结果阶段,用户可以将这些结果用于指 [作者简介]彭晶(1984.),男,重庆忠县人,主要研究方向 导实际或者下一次的研究之中,为了方便简洁显示出最后的结 计算机通信网络。