新手入门5——分页列表详细信息采集
2017-06-13 18:15:26 阅读量: 116954
本文给大家演示如何采集分页列表详情页面里的信息。目的是让大家了解怎么创建循环翻页并能正常采集网页详情的数据信息。
本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/moviespage1.html 例如这个网址里面有很多电影,我们需要点击每一部电影进去采集电影的剧情、上映时间等字段。
步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集,进入到任务配置页面: 然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
我们在八爪鱼里需要循环点击下图浏览器中电影名称,再提取详情页面中的数据信息,所以我们需要先做一个翻页循环再做一个循环点击电影名称提取数据的列表。
步骤2 我们先做一个循环翻页流程,这个步骤就会在采集的时候模拟人工点击翻页,鼠标点击在下图浏览器页面中的“下一页”按钮,在弹出的对话框中选择“循环点击下一页”;这样翻页循环就做好了。
下面对电影名称创建循环点击
我们要把每个电影的链接打开,进入详情页面,然后在采集详情里面的数据。结合步骤2中建立的翻页循环,我们就能自动点击下一页翻页,对每一页的电影标题列表都能逐个打开进入详情页,从而完成对所有电影详情数据的点击并达到提取所有数据的效果。
步骤3 鼠标点击下图中第一个电影标题“教父:第二部”链接,这时候和右边的操作提示框中就会出现一些选项,我们选择“选中全部”选项,然后再选择“循环点击每个链接”选项即可,这样循环点击电影标题到详情页面的步骤就做好了。
小贴士 在7.0以前的八爪鱼版本中,会弹出一个选项框让用户选择,7.0中为了让用户在操作的时候还能看到网页,这个提示框就挪到了右边,并且简化了操作过程。而且在点击第一个电影标题“教父:第二部”链接之后,浏览器中这个链接就被选中了,在网页中用一个绿色框标注出来,同时八爪鱼的智能算法也自动检测到了还有其他几个相似元素,也就是本例中另外两个电影标题链接,我们选择“选中全部”选项,就可以自动选中全部标题链接,这时候八爪鱼提示我们已经选中了这一组元素,然后我们要逐个点击链接进去详情页采集,所以接下来对选择的“循环点击每个链接”选项,这时候八爪鱼就会自动模拟人的操作,执行刚才设定的“循环点击每个链接”的动作,以刚选中的电影标题列表的第一个为样本页面,点击详情链接并跳转到详情页面中去了,后续步骤中我们就可以提取数据了。
接下来就是最终提取数据的步骤了,结合前面的步骤,最终完成对所有电影详情数据的采集
步骤4 鼠标点击页面中要提取的电影标题字段,这里标题字段就被选中了并通过红色框表示,然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据,
然后同样的方式选择点击浏览器中的其他字段,再选择“采集该元素的文本”
步骤5 这样提取完毕之后我们可以点一下流程按钮,然后修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。 在下面界面中修改字段名称,修改完成之后,点击“确定”保存
步骤6 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”
系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出excel2007为例,然后点击确定. 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。
下面是数据示例