赶集网出租店铺信息采集
2017-08-08 14:23:01 阅读量: 22442
本文介绍使用八爪鱼采集赶集网数据(以深圳-南山-商铺信息为例)的方法
采集网站:http://sz.ganji.com/fang6/nanshan/
赶集网:专业的分类信息网,提供免费发布信息、查阅信息服务。提供最新最全的房屋出租、二手房、二手车、二手物品交易、求职招聘等生活信息。其中,赶集网出租分类下,提供全国367个城市、海量最新的出租信息。
数据说明:本文进行了赶集网-房产-商铺-深圳-南山分类下的所有商铺信息采集。点击每一个商铺链接,进入商品详情页,采集每个商铺数据信息数据。
本文仅以“赶集网-房产-商铺-深圳-南山分类下的所有商铺信息采集”为例。大家在实操过程中,可根据自身需求,更换赶集网的分类和字段进行数据采集。
详细字段说明:名称、价格、面积、面宽、层高、区域、所在地址、付款方式、租约方式、租售方式、商铺所属类型和商铺经营状况。
使用功能点:
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将商铺信息页的网址复制,粘贴到网站输入框中,点击“保存网址”
步骤2:创建翻页循环
1)将页面下拉到底部,点击“下一页”按钮,在右侧的操作提示框中,选择“循环点击下一页”
步骤3:创建列表循环
1)移动鼠标,选中页面里的第一个商铺链接。选中后,系统会自动识别页面里的其他相似链接。在右侧操作提示框中,选择“选中全部”
2)选择“循环点击每个链接”,以创建一个列表循环
步骤4:提取商铺信息
1)在创建列表循环后,系统会自动点击第一个商铺链接,进入商铺详细信息页。点击需要的字段信息,在右侧的操作提示框中,选择“采集该元素的文本”
2)选中相应的字段,可以进行字段的自定义命名。完成后,点击左上角的“保存并启动“,启动采集任务
3)选择“启动本地采集”
步骤5:数据采集及导出
1)采集完成后,会跳出提示,选择“导出数据”
2)选择“合适的导出方式”,将采集好的商铺数据导出
3)这里我们选择excel作为导出为格式,数据导出后如下图