为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼最新版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。
采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。
【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:
但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件下载功能正在研发中,请大家耐心等待。
常见的应用场景
图片/文件下载功能只有个人版及以上版本支持
图片采集并下载
采集示例:https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd
要想实现边采集边下载图片共有两个步骤。
1.选中要采集的图片或文件选项。
2.在操作提示中选择【采集以下图片/文档链接并下载】。
本教程主要为大家演示一下如何边采集图片边下载。
一、单个字段单个图片采集下载
https://cn.toursforfun.com/oa/
例如我们采集某旅游网页的页面标题、主图片链接并下载,只能只采集一张主图连接并下载。
第一步
采集网页的页面标题。
第二步
选中图片,在操作提示中选择【下载图片】。这时我们可以看到数据预览模块中生成了三个字段,分别是页面标题、图片链接以及图片链接-保存位置。
我们还可以继续在操作提示中修改设置
①下载文件名的命名方式。默认为原文件MD5值,在这里我们可以修改为字段值内容,选择页面标题,将下载图片命名为标题的文本内容。
②当文件名称重复时,我们可选择跳过、覆盖或自动重命名。
③此外点击【更多设置】按钮,可以进入采集配置页面,在这里可以设置文件保存路径和启动项。
文件保存位置说明:
a. 安装软件时默认创建一个独立“八爪鱼下载”文件夹作为保存所有下载任务文件的一级目录(可以手动修改)
存路径
b. 每个任务的文件保存路径自动并独立创建在一级目录下
c. 示例:D:\八爪鱼下载\任务名\下载时间\字段名\文件
第三步
启动采集。我们启动本地采集,选择下载文件,可以在本地界面看到下载信息模块。其中包含了下载链接、保存路径、文件大小及状态。
我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。
二、单个字段多个图片采集下载
还有另外一种情况,例如我们采集的多个图片链接在同一个字段内容表格中,这种场景我们该如何处理呢?
这里我们采集源码格式化获取全部的主图链接,操作如下所示。
第一步
先采集主图区域的源码outerhtml
修改该字段的Xpath为:(//div[@class="my-system-slider-thumbs-container"])[1]
第二步
格式化源码获取全部的主图链接,这个时候就会在一个字段内有多个图片链接了。
接下来进行设置多个图片链接的下载
第三步
将鼠标移动至字段设置操作,点击选择下载文件,可以看到该字段名前有一个下载设置按钮。
第四步
点击下载设置进入文件下载配置页面,可以在这里设置命名方式等。我们勾选【包含多个URL】,并选择文件连接的间隔符号,这里默认为换行符。点击确定。
(还可以在这里设置特殊链接不下载)
第五步
启动采集并下载文件。
我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。