八爪鱼采集器作为一个工具,可以采集到互联网上的可见的公开数据。在采集器中除了配置任务,当然还有数据的展示以及数据导出,然后为后期的数据分析和挖掘提供数据支持。

 

查看数据:


7.0版本,我们可以在任务列表界面查看到各个任务最近一次任务所采集到数据量。


步骤1:打开7.0版本的八爪鱼,点击左侧的任务选项,弹出任务列表界面。在每个任务的中间都记录该任务当前采集状态、最近一次云采集的数据量、本地采集的数据量。


1 

 

步骤2:点击“云采集:已采集到XXX条数据…”或是“本地采集:已采集到XXX条数据”。页面会直接跳转到查看数据界面。该界面展示了当前任务所采集到的最终数据形式。


2

 

云数据界面:


云数据界面中展示了当前任务名称(页面中间),以及该任务的总数据量和页数(页面左下方)。同时有一个提示信息:数据只保存3个月。(页面右上角)也就是说云采集的数据,八爪鱼采集器会在云端保存3个月,之后数据即被清除。因此数据需要及时导出。

 3

 

本地数据:


本地数据界面与云数据界面基本没有差别。但是本地数据是任务进行本地采集时生成,每次本地采集会将之前保存的本地数据清除,只保留最新一次运行的数据。而云数据所保存的时每次云采集运行结束后的数据的汇总。

 4

 

跳转任务编辑界面:


云数据界面中可以直接跳转到任务编辑界面,直接点击“编辑任务”(左上角的蓝色框)。当查看到任务的数据不符合预期时,就可以执行该操作,跳转任务编辑界面,即可进行修改。然后再次运行任务。

 5

 

数据翻页、跳转

在左下方可以点击翻页操作,查看后续的数据情况。同时还是填写某一个页面数,点击“跳转”会自动跳转到相应的页面。

6


清除数据:


点击“清除数据”,可以将当前显示的所有数据清除。主要是当前数据不符合预期时或者数据出错时,需要将数据进行清除,不影响下次采集的数据。


7 

全部数据、未导出数据切换:


当数据长时间更新时,用户会一边采集一边导出,这时就会区分出未导出数据和全部数据。方便用户筛选和后续导出。在云数据界面,这两组数据可以进行切换。

 8

 

导出数据


点击右下方的“导出数据”,会弹出一个导出窗口,进而导出为各种格式的数据,操作如下:


9


目前我们支持导出的格式有excel 2007excel 2003csv文件、HTML文件以及导出到数据库。


10