58同城信息采集
2017-09-19 14:55:56 阅读量: 28353
采集网站:
http://sz.58.com/ershouche/0/pn2/?PGTID=0d30001d-0000-4a76-5430-9a92493cac3e&ClickID=94
使用功能点:
l 分页列表信息采集
l Ajax点击
58同城:58同城作为中国最大的分类信息网站,本地化、自主且免费、真实高效是58同城网的三大特色。其服务覆盖生活的各个领域,提供房屋租售、招聘求职、二手买卖、汽车租售、宠物票务、餐饮娱乐、旅游交友等多种生活信息,覆盖中国所有大中城市。
58同城二手车评论数据采集说明:本文进行了58同城二手车评论数据的采集,本文仅以“58同城二手车评论数据采集”为例,大家在实操过程中,可根据自身需求,更换58同城的其他内容进行数据采集。
58同城二手车评论数据采集详细说明:汽车名称,首次上牌时间,表显里程,排量,变速箱,二手车价格。
步骤1:创建采集任务
1)进入主界面,选择“自定义采集
2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”
步骤2:创建翻页循环
将页面下拉到底部,鼠标点击“下一页”按钮。然后在右侧的操作提示框中,选择“循环点击下一页”
1)移动鼠标,选中页面里的第一条二手车相关信息。选中后,红框内的底板会变成绿色,其中的适配信息字段会变为红色底色。然后在右侧的操作提示框中,选择“选中子元素”。
2)接着选择“选中全部”
3)然后鼠标点中字段旁边的编辑标识,可以对提取字段的自定义命名,点中旁边的删除标识可以删除不需要的字段。
步骤4:Ajax点击
1)字段修改完成以后,就可以在右边的提示框中选择“采集以下数据”。
2)之后选择“保存并开始采集”并选择启动本地采集。可以看到提取数据速度不是很快,所以要在之前设置的规则流程中设置Ajax加载。
3)首先,打开右上流程按钮
4)然后鼠标选中左边规则中的“点击翻页”,在左边的高级选项中点开下拉页面,在“AJax加载”一项中勾选AJax加载数据,超时2秒。
5)注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。
表现特征:
1.点击网页中某个选项时,大部分网站的网址不会改变;
2.网页不是完全加载,只是局部进行了数据加载,有所变化
步骤5:数据采集及导出
Ajax设置完成之后,再重新启动本地采集
采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图