58同城数据采集?学完这几招快速搞定!
58同城数据采集?学完这几招快速搞定!
最近很多小伙伴在问关于58网采集的问题,
规则做完,有一部分数据没采到?
已经采到最后一页,循环就是不停止?
网页数据有很多,采集时只看见一部分?
想从58网站采什么,不管是招聘信息,还是二手市场交易信息,八爪鱼都可以帮你从58同城上采集下来。
58同城招聘信息采集
又是一年招聘季,你想及时了解心仪职位的招聘信息,但是一页一页浏览太耗费时间,有没有想过利用八爪鱼你可以一边监测招聘信息,一边修改简历。
58同城二手车信息采集
你是一名二手车评估师,想要了解二手车车辆型号、出厂日期、上牌日期一系列信息,但是一一条条复制太花时间,有没有想过利用八爪鱼这些数据就是几分钟的事。
58同城新房数据采集
你是装修公司的业务员,需要了解目前市场上新房的相关数据,户型和设计风格,扫楼和登门拜访耗时又耗力,
有没有想过利用八爪鱼你可以不在那么辛苦,所有想要的信息数据尽入囊中。
58同城采集症结诊断
58可以采集很多数据,但是小伙伴们也跳了很多采集的坑。
下面总结了在58同城采集数据经常碰到的三种问题
1、字段定位不准
有一部分数据就是采集不到,不知道是什么鬼?
有部分车型的最大功率没有采集成功,
以58采集租房信息为例,如图,比如我们需要采集房源列表里面的详细信息,每条房源信息的字段有可能不是完全一样的,所以需要定位字段,以详细地址为例:
这样就可以通过文本来找到正确的Xpath,其它定位不准的字段可以依次类推
2、下一页死循环
有些网站可能我们用系统做好的规则在采集的时候可能明明已经采集最后一页了,就是不停止,一直在最后一页循环采集,这种情况其实是由于Xpath定位不对导致的,我们需要通过修改Xpath来解决这个翻页问题。
第一步,先打开规则流程,检查是什么地方出现的问题
如上图中,浏览器中要采集的数据已经在最后一页了,可是我们在循环列表中依旧能找到下一页的按钮,代表一直都可以点击这个按钮进行采集,循环是结束不了的。那么我们点开循环列表的高级设置按钮,可以看下一页的Xpath如下图所示:
我们把这个Xpath复制到火狐里面去,发现在第一页是的确可以定位到下一页的,并且可以看到这个Xpath在火狐里面每一页都能定位。那么我们看一下第一页和第二页里面源码的区别:
3、网页数据不能完全显示
有的时候需要采集的网页有很多,但是只显示其中的一部分,这种情况就需要先采URL,再通过URL循环采集详情数据或者多层循环进行嵌套,可以采得更多数据。
如何提取URL?
提取页面内的超链接
提取当前页地址栏里的超链接
也可以把在做规则时将限定条件不断细分,以求需要的数据能在限定的页数范围能全部展示
服务提示