在八爪鱼采集原理中我们讲过,八爪鱼是模拟人浏览网页的行为进行数据采集的,比如打开网页、点击某个按钮等。在八爪鱼采集器客户端中,我们可以自行配置这些流程。

八爪鱼数据采集,一般有以下几个基本流程,其中打开网页、提取数据是不可或缺的,其他流程可根根据自身需求进行增删。

 

1、打开网页

本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。即使用URL循环打开网页。

 

 

2、点击元素

本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击翻页,点击跳转到其他页面等等。

 

 

3、输入文本

本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。 将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。

 

 

4、循环

本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。1)循环单个元素:循环点击页面中的某个按钮; 2)循环固定元素列表:循环处理网页中固定数目的元素; 3)循环不固定元素列表:循环处理网页中不固定数目的元素; 4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。

 

5、提取数据

本步骤根据自身需求提取网页中自己所需要的数据字段,要哪个就点击选择哪个。除从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、空字段、当前网页网址等。

一个完整的采集任务必需包含“提取数据”,且提取数据中至少要有一个字段。如果没有,当启动采集时程序会报错,提示“没有配置采集字段”。

 

 

另外,八爪鱼的规则市场有很多已经做好的规则,可直接下载后导入八爪鱼使用。

 

1、如何下载采集规则

八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。 使用规则市场下载规则,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。

下载规则有以下三种方式:打开八爪鱼官网(http://www.bazhuayu.com)->爬虫规则;打开八爪鱼采集器客户端->市场->爬虫规则;直接在浏览器中访问数多多官网(http://www.dataduoduo.com)->爬虫规则。

 

 

2、如何使用规则

一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。将下载好的规则存储到相应位置。然后打开八爪鱼客户端->任务->导入->选择任务。从邮件或者QQ,微信接收到的规则同理。