为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼8.5.2版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。

采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。

【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:

  

但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件下载功能正在研发中,请大家耐心等待。

 

常见的应用场景

1、图片采集并下载

采集示例:https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd

2、网页包含文档等附件

采集示例:http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html

 

要想实现边采集边下载共有两个步骤。

1.选中要采集的图片或文件选项。

2.在操作提示中选择【采集以下图片/文档链接并下载】。

 

本教程主要为大家演示一下如何边采集图片边下载。

1.图片链接采集与下载

https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd

例如我们采集某旅游网页的页面标题、主图片链接并下载。

第一步,采集网页的页面标题。

 

第二步,选中图片,在操作提示中选择【采集图片链接并下载】。这时我们可以看到数据预览模块中生成了三个字段,分别是页面标题、图片链接以及图片链接-保存位置。

 

我们还可以继续在操作提示中修改设置

①下载文件名的命名方式。默认为原文件MD5值,在这里我们可以修改为字段值内容,选择页面标题,将下载图片命名为标题的文本内容。

 

②当文件名称重复时,我们可选择跳过、覆盖或自动重命名。

 

③此外点击【更多设置】按钮,可以进入采集配置页面,在这里可以设置文件保存路径和启动项。

 

文件保存位置说明:

1、安装软件时默认创建一个独立“八爪鱼下载”文件夹作为保存所有下载任务文件的一级目录(可以手动修改)

存路径

2、每个任务的文件保存路径自动并独立创建在一级目录下

3、示例:D:\八爪鱼下载\任务名\下载时间\字段名\文件

 

第三步,启动采集。我们启动本地采集,选择下载文件,可以在本地界面看到下载信息模块。其中包含了下载链接、保存路径、文件大小及状态。

 

我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。

还有另外一种情况,例如我们采集的多个图片链接在同一个字段内容表格中,这种场景我们该如何处理呢?

 

 

第一步,将鼠标移动至字段设置操作,点击选择下载文件,可以看到该字段名前有一个下载设置按钮。

第二步,点击下载设置进入文件下载配置页面,可以在这里设置命名方式等。我们勾选【包含多个URL】,并选择文件连接的间隔符号,这里默认为换行符。点击确定。

(还可以在这里设置特殊链接不下载)

 

第三步,启动采集并下载文件。

 

我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。