新手入门3——单网页列表详情页采集
2017-06-15 10:05:52 阅读量: 91422
本 教程 给大家演示如何采集 单网页列表详细信息 里的 数据, 目的是让大家了解怎么创建循环 点击到详情页 并能正常采集 详情页 的数据信息。
本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/navmovies2.html
例如这个网址里面有很多电影,我们需要点击每一部电影进去 详情页 采集电影的剧情、上映时间等字段。
步骤1 登陆八爪鱼7.0 采集器→点击新建任务→自定义采集,进入到任务配置页面:
然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
我们在八爪鱼里需要循环点击 到详细页, 再提取详情页面中的数据信息, 所以我们需要先做一个循环 点击元素, 再做一个 提取数据
步骤2 鼠标点击下图中第一个电影标题“ 肖申克救赎”链接, 这时候和右边的操作提示框中就会出现一些选项,我们选择“选中全部”选项,然后再选择“循环点击每个链接”选项即可,这样循环点击电影标题到详情页面的步骤就做好了。
小贴士 在7.0以前的八爪鱼版本中,会弹出一个选项框让用户选择,7.0中为了让用户在操作的时候还能看到网页,这个提示框就挪到了右边,并且简化了操作过程。而且在点击 第一个电影标题“ 肖申克救赎”链接之后,浏览器中这个链接就被选中了 ,在网页中用一个绿色框标注出来,同时八爪鱼的智能算法也自动检测到了还有其他几个相似元素,也就是本例中另外两个电影标题链接,我们选择“选中全部”选项,就可以自动选中全部标题链接,这时候八爪鱼提示我们已经选中了这一组元素,然后我们要逐个点击链接进去详情页采集,所以接下来对选择的“循环点击每个链接”选项,这时候八爪鱼就会自动模拟人的操作,执行刚才设定的“循环点击每个链接”的动作,以刚选中的电影标题列表的第一个为样本页面,点击详情链接并跳转到详情页面中去了,后续步骤中我们就可以提取数据了。
接下来就是最终提取数据的步骤了,结合前面的步骤,最终完成对所有电影详情数据的采集
步骤3 鼠标点击页面中要提取的电影 剧情 字段,这里标题字段就被选中了并通过红色框表示,然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据,然后同样的方式选择点击浏览器中的其他字段,再选择“采集该元素的文本”。
步骤4 这样提取完毕之后我们可以点一下流程按钮,然后修改字段名称。这里的字段名称相当于表头,便于采集时区分每个字段类别。
在下面界面中修改字段名称,修改完成之后,点击“确定”保存。
步骤5 点击“保存并启动”,再在弹出的对话框中选择“启动本地采集”
系统会在本地电脑上开启一个采集任务并采集数据, 任务采集完毕之后会弹出一个采集结束的提示, 接下来选择导出数据,这里以选择导出 excel2007 为例,然后点击确定 . 之后选择文件存放路径,再点保存即可。这样就获取了我们最终需要的数据了。
下面是数据示例