新手入门-自定义模式


   自定义模式是八爪鱼进阶用户使用频繁的一种模式,需要自行配置规则,可以实现全网98%以上网页数据的采集。

   定位:通过配置规则模拟人浏览网页的操作对网页数据进行抓取。

   使用前提:通过向导模式具备了一定采集规则熟悉与八爪鱼采集逻辑理解能力,可以自行配置规则,通过自定义模式还能简单的在实践中学会网页结构、Xpath等能力,堪称学习工作两不误。

   推荐使用情况:其他模式不能满足需求的时候,可以使用自定义模式采集全网数据。


文章内示例网址为:

http://www.skieer.com/guide/demo/genremoviespage1.html

 

自定义模式采集步骤:


步骤1:首先打开八爪鱼采集器→找到自定义采集→点击立即使用


自定义模式 开始 

 

步骤2:输入网址→设置翻页循环→设置字段提取→修改字段名→对规则进行手动检查→选择采集类型启动采集

 自定义模式 规则配置

 

注意点


  1. 设置翻页循环:观察网页底部有没有翻页图标,如果有并且需要翻页则点击翻页图标,操作提示中循环点击下一页表示循环翻页,可以在循环中设置翻页次数,设置几次则采集网页最新内容几页。采集该链接的文本选项则会出现提取数据步骤,提取下一页对应的文本;点击采集该链接地址步骤选项会出现提取数据步骤,提取当前字段对应的链接地址。点击该链接则会出现点击元素步骤,点击该元素一次。
  2. 设置字段提取:先对网页内容进行分区块,思路为循环各区块,再从循环到的区块中提取每个字段内容,所以设置时先点击2-3个区块,八爪鱼会自动选中剩余所有区块,点击采集以下元素文本会出现循环提取数据步骤,实现对区块的循环采集,但是此时每个区块循环时只会将区块内文字合并为一条提取,此时我们删除该字段并手动添加需要提取的所有字段;点击循环点击每个元素则会出现循环点击元素步骤,对每个区块进行一次点击,该示例中区块点击没有效果,所以该示例中循环点击不存在效果。如果选择错误,或者出现的内容列表不是你需要的,可以在操作提示中点击区块后的垃圾桶图标进行删除操作,或者点击取消选择,重新设置。循环之下的第一个元素要勾选采集当前循环中设置的元素,相关操作才会根据循环设定循环。
  3. 修改字段名:修改字段名可以点击选择系统内置的字段名,或者手动输入字段名,按回车键可以切换到下一个。
  4. 选择采集类型启动采集:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

步骤3:确认数据无误→点击导出数据→免费版用户支付积分→选择导出方式→查看数据

自定义模式 导出

 

说明:积分是用来支付八爪鱼增值服务的一种方式,主要的用途包括:通过八爪鱼采集器采集并导出数据,不同的账号类型在使用上述增值服务时会有不同的收费策略,具体的收费策略和区别在版本说明里面有详细的解释。积分可以通过八爪鱼官方购买专业版或者旗舰版每月赠送,也可以单独购买积分,还可以通过关注,签到,分享规则,关注微信,绑定社交账号等多种方式获得。