新手入门-向导模式


向导模式适用于采集新手向采集大神过渡,通过向导指引你熟悉网页结构,也对八爪鱼采集器采集流程有一个更准确的认识。


定位:用简单易懂的语言帮助你明白采集规则的配置方法以及八爪鱼采集器的采集思路。

使用前提:可以采集互联网内绝大多数网页数据。

推荐使用情况:八爪鱼采集器初学者,在智能模式、简易模式不能满足需求的时候,建议优先使用向导模式,使用熟练后可以使用自定义模式进行采集,采集更自由、更效率。


文章内示例网址为:

https://coll.jd.com/list.html?sub=13321

https://coll.jd.com/list.html?sub=13322


向导模式采集步骤:


步骤1:首先打开八爪鱼采集器→点击自定义采集立即使用旁的下拉三角→选择使用向导模式采集:

 向导模式 开始

 

建议:向导模式可以采集多个网址内容,例如同一产品的不同分类等。可以提前准备好需要采集的所有网址。


步骤2:输入采集网址(换行输入多个网址)→选择对应的网页类型→配置链接列表→设置翻页以及翻页次数→设置抓取模板→修改字段名→选择采集类型启动采集。


向导模式 规则11 

 向导模式 规则12

 向导模式 规则2

 

 

注意点


  1. 网页类型:第一项列表或表格与第三项单网页内容适用于无需点击进入详情页、采集内容就在输入网址的页面内的采集。第二项网页列表中每个链接页的详细内容适用于点开输入的网址后,还需要点击内容,跳转链接到内容详情页中的采集。
  2. 配置链接列表:依次点击进入内容详情页的链接,点击2-3个,直到链接列表里出现该页所有内容链接位置表示链接列表配置完成。
  3. 设置翻页以及翻页次数:观察网页底部有没有翻页图标,如果有并且需要翻页则点击上方设置区域需要翻页,点击网页内翻页的图标,并且设置翻页多少次后停止。
  4. 设置抓取模板:需要抓取什么字段就将鼠标移动在该字段上,蓝框表示抓取的内容区域,确认无误后点击进行抓取,抓取完所有内容后记得修改字段名称以及抓取类型,抓取字段后的垃圾桶图标可以对抓取错误的字段进行删除操作。
  5. 选择采集类型启动采集:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

步骤3:确认数据无误→点击导出数据→免费版用户支付积分→选择导出方式→查看数据


 向导模式 导出数据


说明:积分是用来支付八爪鱼增值服务的一种方式,主要的用途包括:通过八爪鱼采集器采集并导出数据,在规则市场下载规则,在数据市场下载数据包,不同的账号类型在使用上述增值服务时会有不同的收费策略,具体的收费策略和区别在版本说明里面有详细的解释。积分可以通过八爪鱼官方购买专业版或者旗舰版每月赠送,也可以单独购买积分,还可以通过关注,签到,分享规则,关注微信,绑定社交账号等多种方式获得。