为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼8.5.2版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。
采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。
【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:
但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件下载功能正在研发中,请大家耐心等待。
常见的应用场景
1、图片采集并下载
采集示例:https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd
2、网页包含文档等附件
采集示例:http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html
要想实现边采集边下载共有两个步骤。
1.选中要采集的图片或文件选项。
2.在操作提示中选择【采集以下图片/文档链接并下载】。
本教程主要为大家演示一下如何边采集图片边下载。
1.图片链接采集与下载
https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd
例如我们采集某旅游网页的页面标题、主图片链接并下载。
第一步,采集网页的页面标题。
第二步,选中图片,在操作提示中选择【采集图片链接并下载】。这时我们可以看到数据预览模块中生成了三个字段,分别是页面标题、图片链接以及图片链接-保存位置。
我们还可以继续在操作提示中修改设置
①下载文件名的命名方式。默认为原文件MD5值,在这里我们可以修改为字段值内容,选择页面标题,将下载图片命名为标题的文本内容。
②当文件名称重复时,我们可选择跳过、覆盖或自动重命名。
③此外点击【更多设置】按钮,可以进入采集配置页面,在这里可以设置文件保存路径和启动项。
文件保存位置说明:
1、安装软件时默认创建一个独立“八爪鱼下载”文件夹作为保存所有下载任务文件的一级目录(可以手动修改)
存路径
2、每个任务的文件保存路径自动并独立创建在一级目录下
3、示例:D:\八爪鱼下载\任务名\下载时间\字段名\文件
第三步,启动采集。我们启动本地采集,选择下载文件,可以在本地界面看到下载信息模块。其中包含了下载链接、保存路径、文件大小及状态。
我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。
还有另外一种情况,例如我们采集的多个图片链接在同一个字段内容表格中,这种场景我们该如何处理呢?
第一步,将鼠标移动至字段设置操作,点击选择下载文件,可以看到该字段名前有一个下载设置按钮。
第二步,点击下载设置进入文件下载配置页面,可以在这里设置命名方式等。我们勾选【包含多个URL】,并选择文件连接的间隔符号,这里默认为换行符。点击确定。
(还可以在这里设置特殊链接不下载)
第三步,启动采集并下载文件。
我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。