八爪鱼,百万用户信赖的网络爬虫工具

八爪鱼软件如何批量采集瀑布流网站图片

作者:xinyue 发布时间:8/28/2014 4:11:35 PM 8122 人已阅读

摘要:八爪鱼数据采集器如何处理AJAX网页采集?瀑布流形式的网页图片要如何采集?图片URL如何获取并进行批量下载?

      随着瀑布流网站、AJAX网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活,有些企业或个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集,下面,八妹子就来介绍下,遇到这类型网站时我们要如何使用八爪鱼采集器来快速收集数据。

     我们以“韩国东大门”这个网站为例,来说明下图片采集要如何实现。先来看下这个网站的特殊之处,首先,页面上的图片不是一次加载完成,而需要滚动多次才会滚动到底部,这类型的网站像新浪微博也是类似情况,当然也有的瀑布流网站是一直加载无法见底的,这种情况八妹子会在别的文章来单独介绍,在此不赘述。其次,产品详情页不能通过点击标题进入,而需要点击图片才能进入。

    针对以上两点问题,在使用八爪鱼采集器采集图片等信息的时候,在设置规则的时候需要注意以下几点:

    1、打开网页的时候,需要设置AJAX网页加载,以便确保数据采集的时候不会遗漏,像东大门这个示范站,我们实际滚动大约需要4次,所以我们在AJAX加载到底部,滚动次数可以设置为4次或5次均可,次数可以适当的比实际的滚动次数稍微多一两次!

 图片采集1

 

    2、由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项,如下图所示,我们需要点击A标签取到图片的链接地址,并以此链接为循环列表,添加元素到列表的时候,每次都需要点击A标签,2-3次添加之后系统会将所有选中的图片链接自动读取出来。

 链接循环列表3

 

    3、采集图片的URL,按第二步的操作进入到详情页后,就是提取数据了,对于产品名称和价格,都是文本形式,提取非常简单,而对于图片,会需要先采集到图片本身的URL,再进行转换,采集办法如下图所示,选中图片后,在弹出的对话框中可选中IMG标签,选择图片的超链接进行采集。

 图片地址抓取

 

    4、设置完成后,保存,来看下采集的战果!URL、产品名称、价格均已采集下来,我们导出为EXCEL格式的文件。

 数据结果

    5、将图片的URL转换为图片批量下载下来,相关的工具再八爪鱼数据采集器论坛可以免费下载。将URL地址导入工具即可将图片转换下来!

 图片下载工具

 

    经过以上简单的5步,AJAX网页上的瀑布流图片就轻松采集下来了,当然,如果你要进行多页采集,只需要再第2步的设置一次翻页循环即可,翻页循环的相关视频教程可直接点击查看。

    目前八爪鱼采集器最新版本V3.2.5已经发布下载,有关八爪鱼采集软件更多的使用规则,小伙伴们可以直接登陆软件客户端内的规则市场搜索,或者加入八爪鱼采集用户交流群交流!


欢迎咨询在线客服
加微信群,与更多用户一起交流