八爪鱼,百万用户信赖的网络爬虫工具

百度旅游八爪鱼采集推荐 景点游记采集

作者:xinyue 发布时间:9/22/2014 6:53:32 PM 7419 人已阅读

摘要:继百度知道、百度问答、百度地图结果采集规则推出后,很多小伙伴希望有更多的相关八爪鱼采集规则介绍推荐,八妹子在本篇中将重点推荐百度旅游景点的数据采集,研究旅游经济和运营旅游网站的小伙伴们不要错过!

      有关旅游景点的攻略采集在前面的八爪鱼采集软件的精选规则中都有提到,前文介绍了像马蜂窝、去哪儿等旅游相关网站的数据采集,有兴趣的小伙伴可以前往了解。

      本文中,八妹子主要想来介绍下,百度旅游频道有关景点情况介绍的内容,如何通过八爪鱼采集器进行采集操作。

      首先,先到八爪鱼采集软件内的规则市场搜索一下,有关百度的采集,目前更新的规则比较多,比如说百度地图采集、百度知道采集、百度景点采集等。找到百度景点采集的规则下载下来。

规则市场截图1

      百度景点采集的规则分成3个子规则,首先是采集城市的链接地址,再以城市的链接地址循环采集每个景点的链接地址,然后是通过景点的链接地址再采集景点的游记、门票、评价等信息。

      很多时候,我们在遇到一个采集数量比较大的网站时,都可以考虑用上述采集思路将一个采集任务分成不同的小任务进行执行,对于提高采集速度和采集数据的准确性都能有帮助哦!

      接下来,很多小伙伴们在下载现成的规则使用的时候,都需要根据自己的实际需求,将部分采集规则设置进行适当的修改后使用。一般来说,常用到的,就是修改示例中的目标网址及采集字段,本规则中需要修改的是循环框中的网址列表。

截图1

      经上文可知,由于本套规则中是先城市再景点再游记,一环套一环的规则采集办法,执行完城市任务的时候需要将结果应用到景点任务中的循环URL中,同理,景点中采集得到的结果要应用到游记中的URL循环中去。具体操作如下图所示:

 截图2 网址修改办法

 

      如果需要建立一个以网址列表的循环,操作步骤也非常简单,首先,可以手工拖入一个循环框,在右侧的高级选项中,选择URL列表循环,将结构相同的网址保存进入,点击【OK】,再点击保存,

网址循环1

    接着拖入【打开网页】操作进入循环框,在右侧的高级选项中,选择以【使用当前循环里的URL作为导航地址】并保存,网址循环设置就成功了,小伙伴们可以自己去体验下。

 网址循环2

     随后,回到百度旅游景点采集的规则上来,修改完成后即可来看看数据采集的情况啦!

 数据2

     现在邀请好友注册八爪鱼采集器可有机会获得多种丰厚奖励哦!八爪鱼采集软件,让数据触手可及!


欢迎咨询在线客服
加微信群,与更多用户一起交流