请输入
菜单

图片采集下载方式

标签:教程

为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼最新版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。

采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。

【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:

  

但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件下载功能正在研发中,请大家耐心等待。

 

常见的应用场景

图片/文件下载功能只有个人版及以上版本支持

图片采集并下载

采集示例:https://cn.toursforfun.com/us-east/vacation-packages-101577807.html?currency=usd

 

要想实现边采集边下载图片共有两个步骤。

1.选中要采集的图片或文件选项。

2.在操作提示中选择【采集以下图片/文档链接并下载】。

 

本教程主要为大家演示一下如何边采集图片边下载。

 

一、单个字段单个图片采集下载

https://cn.toursforfun.com/oa/

例如我们采集某旅游网页的页面标题、主图片链接并下载,只能只采集一张主图连接并下载。

第一步

采集网页的页面标题。

 

第二步

选中图片,在操作提示中选择【下载图片】。这时我们可以看到数据预览模块中生成了三个字段,分别是页面标题、图片链接以及图片链接-保存位置。

 

我们还可以继续在操作提示中修改设置

①下载文件名的命名方式。默认为原文件MD5值,在这里我们可以修改为字段值内容,选择页面标题,将下载图片命名为标题的文本内容。

 

②当文件名称重复时,我们可选择跳过、覆盖或自动重命名。

 

③此外点击【更多设置】按钮,可以进入采集配置页面,在这里可以设置文件保存路径和启动项。

 

文件保存位置说明:

a. 安装软件时默认创建一个独立“八爪鱼下载”文件夹作为保存所有下载任务文件的一级目录(可以手动修改)

存路径

b. 每个任务的文件保存路径自动并独立创建在一级目录下

c. 示例:D:\八爪鱼下载\任务名\下载时间\字段名\文件

 

第三步

启动采集。我们启动本地采集,选择下载文件,可以在本地界面看到下载信息模块。其中包含了下载链接、保存路径、文件大小及状态。

我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。

 

 

二、单个字段多个图片采集下载

还有另外一种情况,例如我们采集的多个图片链接在同一个字段内容表格中,这种场景我们该如何处理呢?

这里我们采集源码格式化获取全部的主图链接,操作如下所示。

 

第一步

先采集主图区域的源码outerhtml

修改该字段的Xpath为:(//div[@class="my-system-slider-thumbs-container"])[1]

 

第二步

格式化源码获取全部的主图链接,这个时候就会在一个字段内有多个图片链接了。

接下来进行设置多个图片链接的下载

 

第三步

将鼠标移动至字段设置操作,点击选择下载文件,可以看到该字段名前有一个下载设置按钮。

 

第四步

点击下载设置进入文件下载配置页面,可以在这里设置命名方式等。我们勾选【包含多个URL】,并选择文件连接的间隔符号,这里默认为换行符。点击确定。

(还可以在这里设置特殊链接不下载)

 

第五步

启动采集并下载文件。

我们复制生成的下载路径在文件中打开,可以看到图片都已经下载下来了。

 

 

最近修改: 2024-11-11