新手入门1——单网页信息采集
2017-06-16 10:15:23 阅读量: 127653
本教程给大家演示如何采集单个网页上的数据,适用于搜集某一页的数据。仅有“打开网页”和“提取数据”两步,是很简单的流程配置,但在所有流程均不可缺少。目的是让大家了解如何创建自定义采集任务,掌握最基础的自定义任务配置方法。
本文教程里讲到的示例网站地址为:http://www.skieer.com/guide/demo/simplemovies2.html
例如示例网站是一则新闻信息,我们需要提取这则新闻。
步骤1 打开网页
登陆八爪鱼7.0采集器→点击左上角的“+”图标→选择自定义采集(也可以点击主页中自定义采集下方的“立即使用”),进入到任务配置页面。然后输入网址→保存网址,系统会进入到流程设计页面并自动打开前面输入的网址。
网页打开后,我们可以对任务名进行修改,不修改则默认以网页标题命名。在运行采集前可随时修改任务名。
步骤2 提取数据
在网页中,直接选中需要提取的数据即可,窗口右上角会有对应的提示。本教程中我们以提取新闻标题、日期、正文为例,请各位灵活运用,各取所需。
提取数据设置好,即可点击保存并开始运行采集。但是此时的字段名为系统自动生成的。为了更加符合自己需求,可点击右上角“流程”进入流程页面对字段名进行修改。首先选中要修改中字段名,此时下拉框中会有备选字段名,可直接选取使用。如果没自己想要的,就输入新的字段名。修改好字段名后,点击“确定”进行保存。保存后即可运行采集。
所有版本均可运行本地采集,旗舰版及以上版本可运行云采集和设置定时云采集,但运行云采集前先运行本地采集进行测试。任务运行完采集后,可选Excel、CSV、HTML等格式进行导出或导入数据库。数据导出后可点击链接进入数据存放文件夹内查看数据,文件默认以任务名命名。