本教程给大家演示如何采集单个网页上的数据,适用于搜集某一页的数据。仅有“打开网页”和“提取数据”两步,是很简单的流程配置,但在所有流程均不可缺少。目的是让大家了解如何创建自定义采集任务,掌握最基础的自定义任务配置方法。


本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/simplemovies2.html

 

例如示例网站是一则新闻信息,我们需要提取这则新闻。


步骤1  打开网页


登陆八爪鱼7.0采集器→点击左上角的“+”图标→选择自定义采集(也可以点击主页中自定义采集下方的“立即使用”),进入到任务配置页面。然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。


单网页 3

 

网页打开后,我们可以对任务名进行修改,不修改则默认以网页标题命名。在运行采集前可随时修改任务名。

 单网页 2

 

步骤2  提取数据


在网页中,直接选中需要提取的数据即可,窗口右上角会有对应的提示。本教程中我们以提取新闻标题、日期、正文为例,请各位灵活运用,各取所需。


单网页 6

 

提取数据设置好,即可点击保存并开始运行采集。但是此时的字段名为系统自动生成的。为了更加符合自己需求,可点击右上角“流程”进入流程页面对字段名进行修改。首先选中要修改中字段名,此时下拉框中会有备选字段名,可直接选取使用。如果没自己想要的,就输入新的字段名。修改好字段名后,点击“确定”进行保存。保存后即可运行采集。


 

单网页 8

 

所有版本均可运行本地采集,旗舰版及以上版本可运行云采集和设置定时云采集,但运行云采集前先运行本地采集进行测试。任务运行完采集后,可选Excel、CSVHTML等格式进行导出或导入数据库。数据导出后可点击链接进入数据存放文件夹内查看数据,文件默认以任务名命名。

 

单网页 5