新手入门4——分页列表信息采集
2017-06-16 14:48:53 阅读量: 120058
新手入门5——分页列表信息采集(7.0版本)
本文给大家演示如何采集分页列表页面里的信息。目的是让大家了解怎么创建循环翻页并能正常采集网页列表的数据信息。
本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/genremoviespage1.html 例如这个网址里面有很多电影,我们需要提取每一部电影的标题,分类,评分等字段
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面: 然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
步骤2 我们在八爪鱼里需要循环提取每一页列出来的电影名称 ,所以我们需要先做一个翻页循环再做一个循环提取电影名称的列表。
我们先做一个循环翻页流程,这个步骤就会在采集的时候模拟人工点击翻页,鼠标点击在下图浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”;
这样翻页循环就做好了。如果不需要翻页只要采集一页的内容,那么这一步可以跳过。
步骤3
我们要将列表展示的信息采集成二维表的形式,首先要选中第一个区块,包含所有要采集内容的区块,有些网页可能会选不中,那么可以先选中区块内的某个数据再点击更多下面的图标,看到绿色范围覆盖了需要采集的第一块区域,八爪鱼内置算法会找到这一块区域的子元素,点击“选中子元素”,根据选中的第一个区块的子元素,八爪鱼会在当前页面中找相似的内容,现在八爪鱼就找到了三组内容,都是我们需要的,点击“选中全部”,就可以看到八爪鱼已经将当前页的内容转化成了二维表的形式,这就是采集到的效果,然后我看到有一些不需要的字段,可以将鼠标移动到需要删除的表头,点击垃圾桶的图标,就可以删除不需要的字段。
现在规则就已经设置完成了,可以保持并开始采集了
步骤4 如果需要修改表名,可以点击右上角的流程 ,在配置抓取模板里设置需要的字段名称。
步骤5 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”
系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定. 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。
下面是数据示例