网络爬虫的种类、策略以及工作原理
搜索引擎爬虫是网页数据采集的一个重要分支,通常指的是通过搜索引擎爬虫根据各个网页上的超链接组成的一个看不见的关联性网络来到达各个网页并索引整个网页,然后将快照及关键信息保存在资料库中,以便在用户搜索时根据关键词匹配及显示相关信息。下面由八爪鱼采集器为大家详细介绍网络爬虫的种类、策略以及工作原理。
网路爬虫的工作原理
一般常说的爬虫也是指搜索引擎这种爬虫,那么爬虫是如何采集网页的呢,百度,google这种巨型爬虫目前都是采用云计算为基础,用成千上万台电脑组成一个巨大的爬虫系统,所以其原理比较复杂,其中有很多技术难点,但是就其基本原理来讲,都是一样的。
上图就是一个最基本的原理图,展示了爬虫是如何从一个网页爬到另一个网页的,一首先从互联网页面中精心选择一部分网页,以这些网页的链接地址作为种子URL,将这些种子URL放入待抓取URL队列中,爬虫从待抓取URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址,然后将其和网页相对路径名称交给网页下载器,网页下载器负责页面内容的下载。
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,主要的采集策略有以下几种:
1、深度优先的策略
深度优先的遍历策略类似家族继承策略,典型的如封建帝王的继承,通常为长子,如果长子去世,长孙的优先级大于次子的优先级(这点大家多多仔细分析琢磨下),如果长子和长孙都已经去世,那么次子继承,这种继承上的优先关系也称深度优先策略。(从这点上我们可以了解到蜘蛛的抓取栏目页先后顺序),这主要体现在读一个站点的深入采集上。
2、宽度优先的策略
宽度优先我们又称为广度优先,或者叫层次优先,例如:我们在给祖辈和父辈还有平辈敬茶的时候先给最年长的祖辈,其次为父辈,最后为平辈。这主要体现在对多个不同网站的抓取上。
这两种策略决定了爬虫采集的覆盖面和深入度,一般来说搜索引擎爬虫兼具这两种策略,具体的操作策略则是根据网站的不同而有所不同。
网路爬虫的种类
就像社会上有各种职业和分工一样,大型的爬虫系统,内部也是有不同的分工的,这将爬虫分为几种:
1、新网页爬虫
这种爬虫专门负责查找还没有采集过的新网页,或者新网站。
2、定期爬虫
这种爬虫主要负责采集更新比较快,内容比较多的网站,它们会把这些网页的网址保存起来,定期去采集,看看是否有内容更新。
网络爬虫后期数据处理方法
当然爬虫把网页采集下来之后呢,也需要对网页内容进行复杂的后期整理,这就包括了:网页权重的计算,重复性内容的过滤,甚至网址有效性的更新,实际中,搜索引擎爬虫所使用的技术非常复杂,往往包含很多复杂的数学原理,同时,随着网络的爆发式发展,爬虫技术也在不断进步,变得更加智能,更加强大。
服务提示