豆瓣图片采集以及下载保存的方法
2017-10-19 11:48:43 阅读量: 47806
本文介绍采集使用八爪鱼7.0采集豆瓣图片的方法:可以将网页中图片的URL采集下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。
采集网站:
https://www.douban.com/photos/album/1620960735/?start=0
使用功能点:
l 翻页设置
l 图片链接采集
豆瓣:豆瓣是一个社区网站。网站创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息,无论描述还是评论都由用户提供,是Web 2.0网站中具有特色的一个网站。
豆瓣图片采集数据说明:本文进行了豆瓣-个人主页-个人相册中图片的采集。本文仅以“豆瓣-个人主页-个人相册中图片采集”为例,大家在实操过程中,可根据自身需求,更换豆瓣的其他内容进行数据采集。
豆瓣图片采集字段详细说明:采集时间,采集网址,采集图片地址。
步骤1:创建采集任务
1)进入主界面,选择自定义模式
2)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”
3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的图片是这次演示要采集的内容
步骤2:创建翻页循环
l 找到翻页按钮,设置翻页循环
l 设置ajax翻页时间
1)将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,选择“更多操作”
2)选择“循环点击单个链接”
步骤3:图片链接采集采集
l 选中采集的图片,创建图片的采集列表
l 提取图片链接
1)点击需要采集的图片,点击“选中全部”
2)当前页面中所有的图片地址将会被选中,点击“采集以下图片地址”
注意: 在提示框中的字段上会出现一个“X”标识,点击即可删除该字段。
3)修改采集任务名、字段名,并点击下方提示中的“保存并开始采集”
4)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”
说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
步骤4:数据采集及导出
1)采集完成后,会跳出提示,选择导出数据
2)选择合适的导出方式,将采集好的数据导出
步骤5:将图片URL批量转换为图片
经过如上操作,我们已经得到了要采集的图片的URL。接下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中。
图片批量下载工具:https://pan.baidu.com/s/1c2n60NI
1)下载八爪鱼图片批量下载工具,双击文件中的MyDownloader.app.exe文件,打开软件
2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)
3)进行相关设置,设置完成后,点击OK即可导入文件
选择EXCEL文件:导入你需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表内对应URL的列名称
保存文件夹名:EXCEL中需要单独一个列,列出图片想要保存到文件夹的路径,可以设置不同图片存放至不同文件夹
如果要把文件保存到文件夹,则路径需要以“\”结尾,例如:“D:\同步\”,如果要下载后按照指定的文件名保存,则需要包含具体的文件名,例如“D:\同步\1.jpg”
如果下载的文件路径和文件名完全一样,则原先存在的文件会被删除