您的当前位置:首页聚焦爬虫爬行性能研究

聚焦爬虫爬行性能研究

2020-06-01 来源:小侦探旅游网
信息技术 SOIEN0E&TECHNOLOGY , 墨倒 聚焦爬虫爬行性能研究① 黄昊晶’‘ (1.广东水利电力职业技术学院计算机信息工程系 广州 5 1 0635 2.苏州大学智能信息处理及应用研究所 江苏苏州 2 1 5006) 摘要:爬虫作为网页搜索下裁程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总 结出三类翻约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦 爬虫使用URL静态分配策略结合异步DNs查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。 关键词:康虫DNS UBL分配 分布式爬行 中图分类号:TN711 文献标识码:A 文章编号:1672-3791(2011)o7(c)-oo13--02 1引言 算法是决定搜索引擎所提供的服务形式 因素在于URL的无序分配导致网页数据 同工作等问题。 因此,DNS解析也是网络爬虫的瓶颈 之一,因为有些域名请求要经过很多层服 爬虫是一个网页自动搜索程序,根据 和爬虫网页抓取行为、工作有效性、及时 通信缺少优化、分布式爬虫无法有效协 既定的抓取目标,有选择地访问互联网上 性的关键所在。这两个部分的算法又是 的网页与相关的链接,获取所需要的信息, 紧密相关的,决定了爬虫程序的执行效  为搜索引擎重要组成部分。文献【1】指出,聚 率。焦爬虫与通用爬虫的不同之处在于并不追 1.2分布式爬行 务器才能解析到,或者因解析服务器的忙 求大的覆盖面,而将目标定为抓取与某一 特定主题内容相关的网页,为面向主题的 用户查询,可实现搜索引擎对Deep web网 页数据的发现和索引。聚焦爬虫采用了一 接,保留有用的链接并将其放人等待抓取 文献[21指出,集中式的爬虫已经不能 碌而超时。文献【3】指出,DNS查询占用整 满足目前互联网的规模,因此支持分布式 个爬行的时间高达70%。解决的方法有两 的爬行,处理和协调好各结点之间的交互, 也是一个重要环节。 种:一是提供DNs缓存,二是建立异步 DNS查询模块。在实际应用中一般会综合 这两种方法。DNS解析子模块可以单独拿 定的网页分析算法过滤与主题无关的链 1.3硬件条件 由于网络环境及硬件资源、IP地址和带 出来放在一台Server上做成DNSI] ̄务器, 的URL队列,然后根据一定的搜索策略从 宽等因素造成的爬虫协同工作问题也是造 这样可以采用更大的缓存和更多的查询 队列中选择下一步要抓取的网页URL,并 成爬虫工作效率低的重要因素。 线程。 重复以上过程直到到达程序的某一条件时 停止,可以有效提高Deep Web数据发现的 2爬行网络环境 效率。 一2.1 DNS缓存服务器 IDC可安装本地DNS缓存服务器,保 存爬虫抓取的解析网页的域名与IP映射。 default TTL=3600(1hour)(缓存服务器 网页分析算法和uRL搜索策略是聚 个高性能爬虫需要注重以下几个方 焦爬虫程序的两个最重要的组成部分, 一面。 定程度上决定了爬虫工作效率的高 保存记录的时间是lh。也就是告诉DNS保  间是停留在爬虫选定了某个uRL下载网 地址加入到爬虫服务器的/etc/reso1v.1.1程序执行效率 能抓取目标的描述和定义是决定网 低。但除此之外,仍有相当一部分工作时 存域的解析记录为lh)t将DNS缓存服务器 页并打开时。这部分工作时间往往比程 conf中。 (1)创建多个DNS查询线程,每个查询 线程调用gethostbyname等同步的API,主 线程与查询线程之间通过MessageQueue连 页分析算法与URL搜索策略如何制订的 2异步DNS查询 基础。而网页分析算法和候选URL排序 序内部的算法分析时间要更长,其重要 2.接,MessageQueue基于事件通知机制。该方 法缺点是实际的并发受限于查询线程的 个数。 (2)基于非阻塞socket+事件驱动机制, 自行构造和解析DNS报文。这个跟常规的 异步网络应用思路一致,但是需要自行编 写DNS协议构造和解析代码。 3分布式爬行 普通单处理机系统受限于CPU的处理 能力、磁盘存储的容量,不可能具备处理海 量信息的能力,这就要求爬虫支持分布式 图1 聚焦爬虫爬行结构图 ①作者简介:黄吴晶(198O一),男,广东广州人,硕士,讲师。研究方向:虚拟化、操作系统、Deep Web。 基金项目:广东水利电力职业技术学院中青年科研基金项目-Deep Web数据源发现与聚焦爬虫研究,项目编号:09002。 科技资讯SCIENCE&TECHNOLOGY INFORMATION 信息技术 协同工作。文献[4】指出,一般说来,爬虫的 4 URL分配策略 硬件因素较多,且环境复杂,一般可通过定 高性能内部分布式爬行。基于URL动态分配 方式成本高、配置难度大,使用配置成本低 效果明显的静态分配方式实现,爬行效率更 分布式爬行可分为内部分布式爬行和外部 分布式爬行。 URL分配模块是爬虫的重要组成部 义URL分配策略及配置异步DNS查询实现 分,主要考虑两个问题。 (1)在节点间划分uRL的策略,即如何 3.1内部分布式爬行。 上运行并通过一个高速连接(如LAN)进行 所有的爬行进程在同一个本地网络 分配下载任务。 (2)优化性能,比如负载均衡、协同工作 高,如图1所示。因此,开发聚焦爬虫程序时 的开销等。 目前一般有两种分配模式可以参考: 4.1静态分配模式 各节点按事先规定的URL范围独立下 理方法:(1)放弃;(2)下载;(3)传送 ̄I]URL隶 [1】周立柱,林玲.聚焦爬虫技术研究综述 通信,从远程Web站点下载网页时都利用 相同的本地网络。采用这种方式,硬件资 源扩展方便,几台PC就能增大磁盘容量, 根据硬件条件 网络环境、带宽等因素,合理 设计URL分配策略,配合高效的DNS查询方 法可有效提高分布式爬行的性能。 提高I/0吞吐量,做成一个小机群,性价 宽上。 比较高。此时,瓶颈主要是在网络出口带 载。若遇到不属于本节点的URL,有3种处 参考文献 3.2外部分布式爬行。 属的节点。静态分配模式的优点是配置比 【J】.计算机应用,2005,25(9). 综述【J】.计算机科学,2009,36(8). [3】Heydon A,N~ork M.Mercator:A scalable,extensible Web crawler[J].World Wide Web,1999,2(4):219~229. 2】周德懋,李舟军.高性能网络爬虫:研究 当并行爬行的不同爬行进程在通过 较简单。关键在于如何划分URL范围,有效 【Internet相连的地理位置较远的不同地区 利用各个节点的资源。 运行时,则这种爬行为外部分布式爬行。它 4.2动态分配模式 的优势是网络带宽较富裕,可以就近爬行 由一个统一的URL管理器统一调度, 周围的Web站点,速度较快。在这种情况 根据各节点的情况动态地分配URL。该模 下,重要的是确定不同地理位置的爬行进 式的优点是能做到负载均衡,使各个节点 【4]Cho Junghoo,Garcia-Molina H.Par- 程问进行通信的频率和数量。因为进程间 下载最大化。缺点也是很明显的,要有一个 的带宽存在限制,有时甚至是拥塞不堪而 专门的uRL管理器,增大了成本和配置难 allel crawlers[A】ⅣHonolu~lu:Proceed- ings of the llth International World 导致堵塞。分布式爬行的主要问题是当多 个爬行节点并行下载网页时,不同的节点 度。URL管理器需要与各节点保持高速实 时通信,存在单点故障。由于要存放所有节 Wide Web Con--ference[C].AcM Press. 2002:l24~135. 可能会多次下载同一个网页。为了避免这 点需要的URL集合,当下载规模增大时,本 种交叉,并同时提高网页下载质量,并行节 身也是一个瓶颈。 点之间应该进行充分的通信,在网页下载 上达成协调,以便并行、一致、高效率地下 5结语 载网页。 制约爬虫的外部分布式爬行的客观及 (上接1 2页) 二组四台防火墙(如图l所示)。在正常运 滤的工作。当主防火墙系统发生事故而 的路径,即用户如需对某一网络进行联接 车调度指挥系统中的应用只是信息安全保 访问时,必须经过路由表中配置的网络地 障工作的一个的启动阶段,而防火墙系统本 身却是一个庞大的系统工程,必须经过后续 (6)设置防火墙策略。设置防火墙策略对 不断完善,并结合铁路网络等级保护的具体 行情况下,左边的主防火墙系统负责过 址,才能到达目的网络。 不能运作,右边的热备防火墙及入侵监 检测的数据包进行的最终操作包括禁止、允 要求,不断拓深TDCS系统的纵深防护体系,  测系统便会自动启动,来维持整体网络 许和内容过滤(即WEB过滤),选中内容过滤 使之能够持久保障铁路信息系统安全稳定,的运作。 时,对WEB过滤中配置的关键字进行检测, 提升铁路信息系统安全管理水平。 3.2防火墙的配置 (1)登陆防火墙管理账号Admin。 (2)检查防火墙系统信息。系统信息包 息、网口状态、当前启用的服务等。 并按照WEB过滤中的处理方式进行处理。 3.3防火墙的功能 参考文献 系统信息网络中的应用【J】.铁路技术创 新,2003(5):32~33. 配置完成的防火墙将实现包过滤、入 【1】喻宏传.防火墙和入侵检测系统在铁路 (内容关键字过滤)、蠕虫防护、D OS/ 括防火墙的CPU情况、内存情况、版本信 侵检测、自动封禁、地址转换、wEB过滤 (3)配置防火墙Internet接入方式。填写 口EXTl、EXT2的使用方式。 (4)配置防火墙的DNS、DHCPI] ̄务器。 DDoS防护等安全功能。防火墙具有实时 【2】周春月.防火墙技术在铁路INTERANE  IP地址配置WAN的接入方式以及扩展接 入侵检测报警功能,能够防止网络扫描、DoS/DDoS攻击以及众多流行网络攻击, T安全系统中的应用【J].北方交通大学 学报,2001,8(25)4. 支持蠕虫抑制功能,当内外网蠕虫发作 采用动态主机设置协议,将网络中每台计 时阻断蠕虫发出的各种病毒或破坏性数 算机的IP地址和网卡MAC物理地址进行捆 据包,保证网络的正常通畅以及业务的 绑,实现防火墙的IP地址自动分配、域名过 正常运行。 滤和时间同步功能。 (5)配置静态路由表。通过防火墙路由 配置,人为地制定访问不同网络需要经过 4结语 防火墙等网络安全技术目前在铁路列 4 科技资讯SCIENCE&TECHNOLOGY INFORMATION 

因篇幅问题不能全部显示,请点此查看更多更全内容