为了让更多的用户实现采集需求,满足对网页图片、文档等文件下载等场景的期待,在八爪鱼最新版本上线了【文件下载】功能。大家不仅可以使用八爪鱼采集所需数据,还可以在采集的过程中下载网页上的文件,包括图片、音频、视频、文档等多种格式。
采集过程中,当用户需要采集网页中的图片、文档等各类文件时,八爪鱼可智能识别文件类型并提供下载选项,帮助用户一次性获取所需数据及文件。
【文件下载】功能支持图片、音频、视频、文档等多种格式的文件下载,例如:
但需要注意目前八爪鱼【文件下载】功能仅支持本地采集模式,云采集文件下载功能正在研发中,请大家耐心等待。
常见的应用场景
文件下载功能只有个人版及以上版本支持
网页包含文档等附件
采集示例:http://www.gdgwyw.com/html/gdzk/sz/202204/76_62407.html
采集附件文件链接并下载
1.采集页面的标题、附件链接
自定义配置采集网页的标题,附件链接
页面有多个附件的,需要创建循环获取全部附件的链接
修改附件的循环列表xpath,这里为什么要修改xpath呢?因为默认的循环列表xpath不止是定位到了附件,还定位到了正文段落,我们只需要采集附件,所以需要把xpath修改成只能定位到附件,修改循环列表的xpath为://div[@id="Zoom"]//p[count(a)=1]
说明:修改xpath需要掌握xpath知识,xpath知识请学习教程:xpath获取方法
2.设置下载文件
设置下载文件,点击附件链接字段右上角【...】选择下载文件
3.设置下载文件报错路径和文件命名方式
4.启动采集下载
最后启动采集并点击确认下载文件
下载完成后我们可用在保存文件的文件夹里,三个文件已经下载下来了
如果附件链接是不能直接提取采集到的,但是网页源码里有附件的链接,可以采集网页源码后格式化获取附件的链接,然后再设置下载文件。采集源码格式化获取链接的方法可参考教程:视频采集下载方法