首页 |网页优化| 网站推广 | 网络安全|网站登陆|给我意见|本站目录| 联系我们
网络蜘蛛v1.0版简介
网络蜘蛛是一个自动搜索HTML页面并下载指定文件的软件。最初设计它是为了下载网站上的图片,想想看,面对那些动辄拥有数百幅图片的网站,你是否有耐心和时间一一点击查看和下载?而且在目前上网费用如此高昂的年代,在网站上慢慢地手工浏览和下载图片是不是太过奢侈了一点?如果你是一个图片收集爱好者得话,建议你试一试网络蜘蛛这个软件。它可以从你指定的地址开始,自动搜索网站并下载图片或其它软件。听起来似乎有点象离线浏览器或网站下载软件是吗?其实它们还是有些差别的,网络蜘蛛的设计目标主要是针对图片等一些比较零碎的、尺寸不是很大的文件的下载,并高度强调自动化工作和高可靠性。下面就来介绍一下它的主要功能。
一. 基本使用:

上面就是网络蜘蛛的主界面,主要的下载选项设定都在这里,下面一一介绍一下:
URL: 其实就是网络地址。在这里输入希望开始搜索的页面地址。
最大搜索层数:这里输入希望搜索的层数。这个参数限制网络蜘蛛自动搜索的范围,开始页面为第一层,开始页面连接的页面为第二层,第二层页面上连接的页面为第三层,依次类推。建议大家把搜索的层数限制在3层以内,因为网页的连接通常都比较多,如果搜索层数太多的话,会造成过多的无效搜索,反而浪费了带宽和资源。当然,如果有专线又不计较通信费用的话,可以试试多搜索几层,看看都有什么结果。不过我要告诉大家的是,据统计,互连网上的任意两个页面的距离平均是9个连接!
同步下载线程数:这个参数比较专业,为了充分利用网络带宽,网络蜘蛛支持多线程同时下载功能,即同时下载多个文件,这样就可以充分的挖掘通信线路的潜力,提高下载速率。对于拨号用户来讲,这个参数一般设在20-40之间,太多可能堵塞通信线路,太少则不能充分利用带宽。这个参数还和连接的网站速度有关,对于速度较快的站点,可以设小些,否则就设大些。可以根据下载速率来自由设定和调整。
下载文件类型:可以选择下载的类型,你可以只下载图片,也可以下载包括html文件再内的所有文件。
文件名必须包括:可以设定一个字符串,只有文件包括这个字符串时,网络蜘蛛才下载它。这样可以滤除不必要的文件,提高下载效率,注意:本参数不支持如*.jpg或???.jpg之类的通配符,如果只要下载jpg文件,可以填写 .jpg。
保存目录:可以指定下载文件保存的目录,请输入相对路径,如“123”,“abc”等,目录会自动创建在网络蜘蛛执行文件的相同目录下,不支持嵌套目录,如“123\456"等。
只下载同一服务器上的文件:选中此选项可以避免网络蜘蛛被页面上的连接引到其它站点上去。
下载页面内嵌图片:选中此选项可以让网络蜘蛛下载页面上嵌入的图片,有些网站会在页面上放置小预览图片,取消此选项可以让网络蜘蛛不下载此类图片。
下载超链接文件:选中此项,将使网络蜘蛛下载页面上的需要点击才能打开的超链接文件。
只下载最后一层链接文件:选中此项可以使网络蜘蛛忽略搜索到的前几层页面上的文件,只下载最后一层链接中的文件。
设定好选项后,点击开始按钮,就可以开始下载了。网络蜘蛛支持断点续传功能,你可以在任意时候停止下载或重新开始下载。
二. 设定下载任务列表:
在网络蜘蛛主界面左上角的图标上点一下,打开下拉菜单,选择“Edit URL List”就可以进入任务设定界面:

这里提供一个任务编辑器,你可以设定好下载的任务表,然后让网络蜘蛛自动完成下载。参数的设定和上面介绍的一样,需要介绍的是任务列表编辑器独有的四个参数,一个是超时设置,它可以设定一个任务的超时时间,单位是分钟,当一个任务的下载进度长时间停滞时,网络蜘蛛会自动终止这个任务,进行下一个任务。另一个有用的设置是完成后自动关机功能,选中这个选项后,网络蜘蛛会在所有任务完成后自动关闭计算机。开始点参数是一个控制开始下载任务的参数,第一个任务是0,第二个任务是1,依次类推,网络蜘蛛会从设定的开始点开始执行下载任务。一般如果从头一个任务开始的话,这个参数设为0就行了,随着任务的执行,网络蜘蛛会自动修改这个参数,没有特殊情况的话,请勿手工修改它。每一个任务还有一个“有效”参数,可以决定网络蜘蛛是否处理这个任务。
注意:开始按任务列表下载请按此界面上的”开始下载“键,请勿按主界面上的“开始”键。
三. 使用代理服务器:
在网络蜘蛛主界面左上角的图标上点一下,打开下拉菜单,选择“设置代理服务器”就可以进入代理服务器界面:

设定合适的代理服务器地址和端口后,点选“使用代理服务器”选项,就可以通过代理服务器下载文件了。
网络蜘蛛采用Microsoft Visual C++编写,如果遇到不能运行的情况,请下载MFC库文件,解压缩后拷贝到Windows\System目录。
中文搜索引擎技术揭密:网络蜘蛛
作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更高的流量和知名度。这其中,搜索引擎已经成了一个重要的且是免费的宣传途径。一方面,搜索引擎会主动出击,寻找网络上的各种网页数据,并在后台按相关条件进行索引;另一方面,各大网站为了能让自己的内容更多的通过搜索引擎向网民展示,都开始对网站结构进行重大调整,其中包括扁平化结构设计、动态(网页)转静态(网页)、Sitemap等。
搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准、全、快。用专业术语讲是:查准率、查全率和搜索速度(即搜索耗时)。其中最易达到的是搜索速度,因为对于搜索耗时在1秒以下的系统来说,访问者很难辨别其快慢了,更何况还有网络速度的影响。因此,对搜索引擎的评价就集中在了前两者:准、全。中文搜索引擎的“准”,需要保证搜索的前几十条结果都和搜索词十分相关,这需由“分词技术”和“排序技术”来决定(参考作者相关文章[1][2]);中文搜索引擎的“全”则需保证不遗漏某些重要的结果,而且能找到最新的网页,这需要搜索引擎有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。
研究搜索引擎技术的文章不少,但大部分讨论的是如何评价网页的重要性,对于网络蜘蛛研究的文章不多。网络蜘蛛技术并不是一项十分高深的技术,但要做一个强大的网络蜘蛛,却非易事。在目前磁盘容量已经不是瓶颈的时候,搜索引擎一直在扩大自己的网页数量。最大的搜索引擎Google(http://www.google.com)从2002年的10亿网页增加到现在近40亿网页;最近雅虎搜索引擎(http://search.yahoo.com/)号称收录了45亿个网页;国内的中文搜索引擎百度(http://www.baidu.com)的中文页面从两年前的七千万页增加到了现在的两亿多。据估计,整个互联网的网页数达到100多亿,而且每年还在快速增长。因此一个优秀的搜索引擎,需要不断的优化网络蜘蛛的算法,提升其性能。
或许有些人有疑问,为何搜索引擎需要用网络蜘蛛抓取网站所有的网页,为什么不在搜索者输入关键词后只把那些需要的结果抓取过来?这实际上是效率问题,搜索引擎不可能在搜索时实时去检查每个网页,而是需要把网页先抓取下来,按照关键词建立好索引,每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找,然后把结果返回给访问者。关于搜索引擎系统架构方面的知识,参考文献[3],本文主要介绍网络蜘蛛的相关技术。