当当图书采集
2018-01-26 20:42:01 阅读量: 21402
本文介绍使用八爪鱼采集器采集当当图书的方法。
喜欢买书的朋友肯定听说过当当图书,当当图书包含小说、童书、教辅、教材、考试、外语等多个图书种类,书籍相比其他网站算是比较全的。
采集网站:
http://category.dangdang.com/pg1-cp01.54.05.00.00.00.html
本文仅以采集当当计算机网络->数据库类的书籍为例。在实际操作过程中,大家可根据需要,更换要采集的分类网址。还可使用URL列表循环,批量采集多个分类网址的书籍。
本文采集的当当,具体字段为:图书标题,图书价格,图书作者,评论数量,图书出版时间,出版社,图书简介。
使用功能点:
/tutorialdetail-1/fylb-70.html
步骤1:创建当当图书采集任务
1)进入主界面,选择“自定义模式”,点击“立即使用”
步骤2:创建翻页循环
1)系统自动打开当当图书列表网页,进入当当图书分类页面。观察网页结构,当把页面下拉至底部的时候,会出现页码,点击下一页的那个图标按钮,在右侧的操作提示框中,选择“循环点击下一页”
2)点击“循环点击下一页”按钮,翻页循环就设置好了。
步骤3:循环提取当当图书数据
1)移动鼠标,选中页面里的要采集的数据,比如下面选择的是图书标题,图书价格,图书作者,评论数量,图书出版时间,出版社,图书简介,选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”
2)选择“采集数据”,并且观察一下数据字段,不需要的数据字段可以删除。
3)点击右上角的“流程”按钮,选中相应的字段,可以进行字段的自定义命名。完成后,点击“确定”。
步骤4:当当图书数据采集及导出
1)点击左上角的“开始采集”,选择启动“本地采集”
注:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
2)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导出方式”,将采集好微博发博数据导出,这里我们选择excel作为导出为格式,数据导出后如下图所示